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Methodologische Potenziale und Herausforderungen 
einer transdisziplinären Zusammenarbeit - 
Eine Einleitung 


Alexa Lucke (Literaturwissenschaft) 


Im Zuge einer viel diskutierten digitalen Transformation der (Geistes-)Wissenschaften 
stellt sich unweigerlich die Frage nach den Potenzialen und Herausforderungen einer 
inter- und transdisziplinären Zusammenarbeit zwischen Literaturwissenschaft und In- 
formatik und nach der Vereinbarkeit ihrer theoretischen Ansätze, Methoden und Model- 
le. 

Die Digitalisierung und Algorithmisierung von Forschungssettings betreffen inzwi- 
schen sämtliche geisteswissenschaftliche Disziplinen, in denen sie äußerst ähnlich kon- 
troverse Debatten über theorie- vs. datenbasierte Forschungsmethodiken ausgelöst ha- 
ben. Im Kontext der Digital Humanities (DH) wird bereits vermehrt von »Lab<-Kulturen 
gesprochen und einem laboratory turn’. Traditionelle Methoden werden in den geistes- 
wissenschaftlichen Fächern dabei nicht nur um digitale ergänzt und erweitert, auch ein 
wissenschaftstheoretischer Diskurs richtet sein Augenmerk zunehmend auf die neuen 
epistemologischen Implikationen ihrer unterschiedlichen Kombinationen.” Der Einsatz 
von digitalen bzw. computationellen Methoden in den Geisteswissenschaften wird in 
den DH von einem selbst erklärten Anspruch an eine neue Theoriebildung digitaler For- 
schung begleitet, der insbesondere philosophisch und wissenschaftstheoretisch begrün- 
det wird. Der Anspruch an die eigene Theoriebildung zeigte sich beispielsweise in der 
Debatte über die Brauchbarkeit des Begriffs Algorithmizität.” Dieser Begriff steht nach 


1 Vgl. Pawlicka-Deger, U.: The Laboratory Turn: Exploring Discourses, Landscapes, and Models of Hu- 
manities Labs. In: Digital Humanities Quarterly 14, No. 3 (2020). http://www.digitalhumanities.or 
g/dhq/vol/14/3/000466/000466.html [30.10.2023]. 

2 Vgl. zu erkenntnistheoretischen Überlegungen in den DH exemplarisch T. Gengnagel (2022): Vom 
Topos des Scheiterns als konstituierender Kraft. Ein Essay über Erkenntnisprozesse in den Digital 
Humanities. In: Fabrikation von Erkenntnis — Experimente in den Digital Humanities. Hg. von Ma- 
nuel Burghardt, Lisa Dieckmann, Timo Steyer, Peer Trilcke, Niels Walkowski, Joélle Weis, Ulrike 
Wuttke. Wolfenbüttel 2021-2022. (=Zeitschrift für digitale Geisteswissenschaften/Sonderbände, 
5) text/html Format. DOI: 10.17175/sbo05_011 [30.10.2023] 

3 Vgl. Stalder, F. (2016): Kultur der Digitalität, Berlin und Gramelsberger, G. (2022): Schlaglichter. 
Algorithmizität. In: Feministische Studien 40 (2), S. 227-228 (https://doi.org/10.1515/fs-2022-0033 
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Felix Stalder für die Vorordnung von kulturellen (Denk-)Prozessen durch Algorithmen 
und maschinelle Prozesse.* 

Die Veränderungen im Bereich von neuen digitalen Forschungspraktiken können 
angesichts einer verkürzten Zeitachse in Bezug auf die neueren Entwicklungen kaum 
adäquat aufgearbeitet werden. Die Geschichtswissenschaft hat beispielsweise andere 
fachliche Anforderungen an digitale Programme als die Komparatistik; die Computer- 
linguistik, die sich bereits seit Jahrzehnten mit der Anwendung von computationellen 
Methoden beschäftigt, operiert mit anderen Ansätzen und Methodiken als die Litera- 
turwissenschaft. In Bezug auf die einzelnen traditionellen geisteswissenschaftlichen Fa- 
cher ist eine emergente Bildung von Paralleldiskursen zu konstatieren, wie auch die ne- 
ben der traditionellen Literaturwissenschaft sich entwickelnde und »konkurrierende« di- 
gitale Literaturwissenschaft: die vor allem unter der Bezeichnung computational literary 
studies bekannt ist. 

Aus dieser - äußerst knapp skizzierten - gegenwärtigen Situation in den DH 
resultieren Fragen nach den relationalen methodologischen Dynamiken und epis- 
temologischen Mehrwerten einer transdisziplinären Zusammenarbeit zwischen Li- 
teraturwissenschaft und Informatik.” Die Herausforderung der Kompatibilität von 
Forschungsmethodiken zwischen qualitativen, hermeneutischen und theoretisch- 
deduktiven Verfahrensweisen auf der Seite geistes- und kulturwissenschaftlicher Fach- 
traditionen und statistischen, quantitativen und induktiv-explorativen® auf der Seite 
der Informatik wird im vorliegenden Band thematisiert; und es wird versucht, die 
dazwischenliegenden »gaps< pragmatisch zu handhaben. Mit Rabea Kleymann plä- 
dieren die hier versammelten Beiträge dafür, die methodischen und disziplinären 


12.07.2023). Vgl. dazu die aktuelle Debatte über den Algorithmizitätsbegriff auf der DHd-Konfe- 
renz 2023. (https://dhtheorien.hypotheses.org/1249, 14.05.2023): Die Debatte antwortete auf den 
Vorwurf einer Theorielosigkeit« end of theory). 

4 Vgl. Stalder: Kultur der Digitalität. In der AG Digital Humanities Theories des DHd-Verbands wurde 
in diesem Zusammenhang die Frage aufgeworfen, ob Computational Thinking (Begriff aus der In- 
formatik) etwa »das Gleiche wie ein algorithmischer Erkenntnisprozess oder das Gleiche wie ein 
regelgeleitetes Vorgehen (wie etwas Dilthey oder Descartes es beschreiben) ?« sei (https://dhtheo 
rien.hypotheses.org/1249, 30.3.2023). Vgl. zum Computational Thinking auch Denning, P.J., Matti, 
T. (2019): Computational Thinking. Cambridge: MIT Press. 

5 Vgl. auch Gius, E., Jacke, J. (2015): Informatik und Hermeneutik. Zum Mehrwert interdisziplinä- 
rer Textanalyse. In: Grenzen und Möglichkeiten der Digital Humanities. Hg. von Constanze Baum/ 
Thomas Stacker. 2015 (=Sonderband der Zeitschrift für digitale Geisteswissenschaften, 1). PDF For- 
mat ohne Paginierung. Als text/html abrufbar unter DOI: 10.17175/sbo01_006. 

6 Dass zwischen explorativen und hypothesengetriebenen Verfahren ein Trennstrich eingezogen 
wird, erscheint angesichts der Fülle an existierenden Ansätzen etwas vereinfachend (vgl. die An- 
notationen der Verfasserin zum Beitrag Mixed Methods von J. Schröter (2023) auf https://via.hyp 
othes.is/https://zfdg.de/wp_2023_008). In induktiv-explorative Verfahrensweisen fließt »entge- 
gen einem verbreiteten Mißverständnis — durchaus theoretisches Vorwissen ein« (U. Flick (1996): 
Qualitative Forschung. Theorie, Methoden, Anwendung in Psychologie und Sozialwissenschaften, 
Reinbek bei Hamburg, S. 10). »In der Praxis besteht keine scharfe Trennung zwischen datenge- 
triebenen und hypothesengetriebenen Verfahren. Zumeist existieren bestimmte Annahmen und 
eine völlig freie Suche nach irgendwelchen’ Auffälligkeiten in den Daten wird allgemein als wenig 
sinnvoll erachtet« (J. Kaufmann, W. Milder (2023): Grundkurs Wirtschaftsinformatik, Wiesbaden, 
S. 393. https://doi.org/10.1007/978-3-658-37937-7_14). 
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Lücken zwischen den differenten Methodiken und Zugängen nicht etwa zugunsten 
einer hermeneutischen Ganzheit zu überbrücken (bridging the gap) oder zu schließen 
(closing the gap), sondern vielmehr die disziplinären Differenzen und die zugrundelie- 
gende »andere« Perspektive anzuerkennen.’ Denn es bedarf der Reflexion und Kenntnis 
von (historischen) philosophischen Grundlagen von disziplinären Methoden, Theorien 
und Wissenskonzepten, die sich beispielsweise in unterschiedlichen semantischen 
Verwendungen gleicher Begriffe? wie »Methode oder »Interpretation« ausdrücken kön- 
nen, um eine multiple Perspektivität von Untersuchungsgegenständen zu erreichen. 
In der Informatik wird mit »Methode« eine bestimmte Vorgehensweise (Verfahren, 
Herangehensweise) zur Lösung einer Aufgaben- oder Problemstellung, insbesondere in 
den Bereichen Softwareentwicklung, Datenmodellierung und -management, bezeich- 
net’, in der Literaturwissenschaft ein der Multimodalität von symbolisch-kulturellen 
Gegenständen angemessener (theoretischer) Zugang." 

Es geht also um die Erschließung der jeweiligen Theorietraditionen, Wissensbestän- 
de und -archive der beiden akademischen Fächer. Insofern es sich aus unserer Sicht im 
Grunde um ein transdisziplinäres Kontinuum von durch historische Prozesse von west- 
lich kulturellen Differentiationen häufig komplementäre und relationale Epistemolo- 
gien handelt", die die Disziplinen Literaturwissenschaft und Informatik bereits mitein- 
ander verschränken, liegt eine transdisziplinäre Zusammenarbeit nahe — besonders für 
die Wiedereinholung und Integration ausgeblendeter (oft philosophisch basierter) theo- 
retischer Perspektiven innerhalb der eigenen Wissenschaft(sgeschichte). 

Reflexionen der Begriffe »Methode und »Verfahren« gehören zum Theoriebildungs- 
prozess und Selbstverständnis der Digital Humanities, in denen durch den Einzug quan- 
titativer Methoden (Franco Moretti) eine Vielzahl methodologischer Debatten ausgelöst 
wurde. 

»Seit dem frühneuzeitlichen Rationalismus ist »Methode ein epistemologischer 
Grundbegriff«'* heißt es beispielsweise im Working Paper 2 des Glossars »Begriffe 
der Digital Humanities« in der ZfdG (2023). Jan Horstmann u.a bezeichnen darin den 
Begriff als »Einbettung eines oder mehrerer »kriteriengeleiteter< und »regelbasierter« 


7 Vgl. Kleymann, R. (2022): Datendiffraktion: Von Mixed zu Entangled Methods in den Digital Hu- 
manities. In: Fabrikation von Erkenntnis — Experimente in den Digital Humanities. Hg. von M. 
Burghardt, L. Dieckmann, T. Steyer, P Trilcke, N. Walkowski, J. Weis, U. Wuttke. Wolfenbüttel 
2021 — 2022. (=Zeitschrift für digitale Geisteswissenschaften/Sonderbände, 5) text/html Format. 
DOI: 10.17175/sboo5_008. 

8 Vgl. dazu auch Lucke, A. (2023): Wissenschaft und Kunst. Die Begriffe »Vereinigung«, »Wechselwir- 
kung: und »Bestimmbarkeit« in Fichtes Wissenschaftslehre und Schillers Ästhetischen Briefen. In: 
Jahrbuch der deutschen Schiller-Gesellschaft 66 (2022), Göttingen, S. 101-128. 

9 Vgl. dazu auch das »objektorientierte Paradigma« bei Fischer, P/Hofer, P (2008): Lexikon der Infor- 
matik, 14. Aufl., Berlin/Heidelberg, S. 522f. (unter dem Lemma >Methode,). 

10 Vgl. Annotationen der Verf. zu Schröter: Mixed Methods (Anm. 6). 

11 Vgl. Lucke, A. (2021): Schillers Ästhetische Briefe als Literatur. Der Vollzug von literarischen Praktiken 
in der »ästhetischen Kunst, Bielefeld. 

12 Horstmann, J., Lück, C., Normann, I. (2023): Methode. In: AG Digital Humanities Theorie des Ver- 
bandes Digital Humanities im deutschsprachigen Raum e. V. (Hg.): Begriffe der Digital Huma- 
nities. Ein diskursives Glossar (=Zeitschrift für digitale Geisteswissenschaften/Working Papers, 2). 
Wolfenbüttel. 25.05.2023. HTML/XML/PDF. DOI: 10.17175/wp_2023_007 
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Verfahren in den Horizont eines Erkenntnisziels«.% Digitale Methoden und Verfahren 
wären demnach prinzipiell miteinander kombinierbar,'* zum Beispiel mit klassischen 
literaturwissenschaftlichen Verfahren der Paratextanalyse oder der Narratologie.” 

Dass gerade Begriffe wie »Methode« und »Verfahren«, auch in ihrer Kombination und 
Verschränkung, im Kontext von digitaler Literatur“ und Literaturwissenschaft” wieder 
neu skizziert werden, liegt ebenso an einer veränderten Perspektive auf Literatur als ei- 
nem nicht mehr nur text-, sondern inzwischen auch datenförmigen Gegenstand, außer- 
dem an dessen zunehmender Theoretisierung und Verwissenschaftlichung.” Traditio- 
nelle literaturwissenschaftliche Kategorien wie »Autorschaft«, »Werk«, »Rezipient«, >Medi- 
um« und »Literatur< müssen angesichts der Anwendung von neuesten KI-Technologien 
in den Bereichen Literatur und Literaturwissenschaft neu konzipiert, operationalisiert 
und analysiert werden, z.B. heuristisch als Parameter eines interdependenten Feldes di- 
gitaler Literatur” , deren semantische Verschiebungen im Feld selbst theoretisch-reflexiv 
und auch performativ verhandelt werden.”° Zum Begriff der digitalen Literatur ist eine 
Vielzahl an Definitionen im Umlauf.” 

Die meisten der in der digitalen Literaturwissenschaft verwendeten digitalen Me- 
thoden wie das Distant Reading”, NLP- oder KI-basierte Verfahren (z.B. Clustering oder 
Fine-Tuning von LLMs), die Stilometrie mit ihren diversen Distanzmafsen”, das Topic 
Modeling oder Visualisierung und Netzwerkanalyse basieren nach Jannidis et al. (2017) 
überwiegend auf statistischen Verfahren” (ausgenommen: Annotationen”). Eine Ana- 


13 Vgl. ebd. Als Beispiel für eine digitale Methode mit verschiedenen Verfahren (wie Distanzmaßen) 
wird dabei die Stilometrie angeführt. 

14 Vgl. Horstmann u.a.: Methode. 

15 Vgl. auch Gius/Jacke: Informatik und Hermeneutik. 

16 Vgl. Bajohr, H., Gilbert, A. (2021): Platzhalter der Zukunft: Digitale Literatur II (2001>2021). In: Dies. 
(Hg.): Digitale Literatur II. In: TEXT+KRITIK. Zeitschrift für Literatur, Sonderband, S. 7-21. 

17 Vgl. zur Differenz von digitaler Literatur und Literaturwissenschaft auch umfassend den Band von 
Jannidis, F. (Hg.) (2017): Digitale Literaturwissenschaft, DFG-Symposion 2017, Würzburg und darin 
besonders Winko, S.: Einführung. In: Jannidis: Digitale Literaturwissenschaft, S. 19-25. 

18 Vgl. z.B. Bajohrs »experimentelle Literatur« (https://www.creative-city-berlin.de/de/ccb-magazin 
/2023/9/6/hannes-bajohr-ki-literatur/, 08.10.2023). 

19 Vgl. Nantke, J. (2017): Tausend Tode, tausend Autoren, tausend Texte? Zur Textualitat digitaler Li- 
teratur. In: Jannidis: Digitale Literaturwissenschaft, S. 173-199, S. 174. 

20 Vgl. den Beitrag von Lucke im vorliegenden Band. 

21 Vgl. dazu grundlegend den Band Bajohr/Gilbert: Digitale Literatur II. 

22 Moretti, F. (2013): Distant Reading. London sowie Moretti, F. (2000): Conjectures on World 
Literature. In: New Left Review 1 (https://newleftreview.org/issues/ii1/articles/franco-moretti- 
conjectures-on-world-literature, 08.10.2023). 

23 Vgl. Büttner, A., Dimpel, F., Evert, S., Jannidis, F., Pielström, S., Proisl, T., Reger, I. (2017): »Delta« 
in der stilometrischen Autorschaftsattribution. In: Zeitschrift für digitale Geisteswissenschaften. 
text/html Format. DOI: 10.17175/2017_006. 

24 Vgl. Kleymann: Datendiffraktion. Vgl. Jannidis, F., Kohle, H., Rehbein M. (2017): Digital Huma- 
nities. Eine Einführung. Stuttgart. 

25 Es sei denn, man bemisst diese anhand von IAA-Maßen (Inter-Annotator-Agreement-Maße) als 
Grad der Ubereinstimmung zwischen Annotationen bzw. Annotator:innen in Bezug auf die Erstel- 
lung von so genannten »Goldstandards« (Bartsch, S., Gius, E., Müller, M., Rapp, A., Weitin, T. (2023): 
Sinn und Segment. Wie die digitale Analysepraxis unsere Begriffe schärft. In: Zeitschrift für di- 
gitale Geisteswissenschaften 8 (2023). 01.06.2023. HTML/XML/PDF. DOI: 10.17175/2023_003). Der 
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lyse mit digitalen Methoden umfasst in der Regel aber weit mehr als nur das einfache 
Auszählen von Worthäufigkeiten. 

Dieser Band widmet sich unter anderem den methodologischen Herausforderun- 
gen digitaler Literaturwissenschaft und dem Ansatz einer transdisziplinären Forschung 
— wie der (gemeinsamen) Operationalisierung von (digitalen und analogen) Forschungs- 
fragen oder der (wechselseitigen) Interpretation und Validierung von Forschungsergeb- 
nissen. Es soll besonders um folgende Fragen gehen: Inwieweit kann die digitale Lite- 
raturwissenschaft von der Informatik als Wissenschaft mit ihren Denkmustern”® pro- 
fitieren oder inwieweit fungiert die Informatik hier als reine Hilfswissenschaft? Welche 
Rolle spielt dabei die (digitale) Hermeneutik und welche hermeneutischen Verfahren las- 
sen sich in den transdisziplinären Forschungsprozess integrieren? Welches transforma- 
tive Potentialkommt dabei (selbstlernenden) Algorithmen und Programmen zu und wel- 
che neuen (methodologischen, hermeneutischen und semantischen) Möglichkeiten und 
Grenzen bieten diese im Kontext von digitaler Literatur und Kunst sowie digitaler Litera- 
turwissenschaft? Inwieweit modellieren wissenschaftliche Instrumente, technologische 
Prozesse und Tools (neben Theorien und Paradigmen) die Daten, Gegenstände und For- 
schungsergebnisse und wie weit komme ich mit bestimmten Methoden, Verfahren und 
Tools in Bezug auf meine Fragestellung? Und was kann die Informatik von der Litera- 
turwissenschaft lernen? Entlang dieser und anderer Fragen werden aus den verschiede- 
nen Blickwinkeln der hier vertretenen Studien literaturwissenschaftliche, informatische 
undtransdisziplinäre Frage- und Problemstellungen sowie die Anwendung von digitalen 
Methoden und Tools für die Analyse, Interpretation und Produktion datenförmiger lite- 
rarischer und künstlerischer Gegenstände in exemplarischen Fallanalysen erprobt und 
evaluiert. 


Was sind die DH und die digitale Literaturwissenschaft? 


Die Genese der Digital Humanities vereint verschiedene Forschungsfelder (die Geis- 
teswissenschaften und die Informatik), wodurch typischerweise Dynamiken von un- 
terschiedlichen, auch gegenläufigen, Forschungsparadigmen und überlagernden, 
widerstreitenden oder teilweise einander ausschließenden Forschungspositionen ent- 
stehen können. Seit einigen Jahren hat sich ein (Meta-)Diskurs im Kontext der DH 
entwickelt, der sich insbesondere mit der Übersetzung von geistes- und kulturwissen- 


Zusammenhang zwischen dem Grad der Übereinstimmung und dem Grad der intersubjektiven 
Gültigkeit scheint dennoch als fraglich (vgl. ebd.). Vgl. zum Goldstandard auch Gius/Jacke: Infor- 
matik und Hermeneutik. Der Goldstandard (also die Übereinstimmung von Annotationen mehre- 
rer Personen) ist häufig die »Grundlage für Training und Evaluation von NLP-Systemen« (vgl. ebd.) 

26 Vgl. Nerbonne, J. (2015): Die Informatik als Geisteswissenschaft. In: Grenzen und Möglichkeiten 
der Digital Humanities. Hg. von C. Baum und T. Stäcker (=Sonderband der Zeitschrift für digita- 
le Geisteswissenschaften, 1). text/html Format. DOI: 10.17175/sbo01_003: »Die Informatik beschäf- 
tigtsich mit digitaler Informationsverarbeitung, sowohl in einzelnen Prozessen (Algorithmen oder 
Rechnern) als auch in Organisationen. Digitale Informationsverarbeitung aber ist ein Erzeugnis 
des kollektiven menschlichen Geistes« (ebd.). 
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schaftlichen Theorien” und Fragestellungen in digitale Forschungssettings beschäftigt. 
Als klassische Texte und Grundlagen für den theoretischen Diskurs in den DH gelten 
unter anderen Franco Morettis Reflexion über den Einzug von quantitativen Methoden 
in die Literaturwissenschaft und seine Problematisierung des Begriffs der Weltlite- 
ratur, Evelyn Gius und Janina Jackes Erweiterung des hermeneutischen Zirkels,?? 
die Verlagerung einer epistemologischen zu einer methodologischen Problematik von 
Julian Schröter et al.”°, Gabriele Gramelsbergers philosophische Grundlagen des Digita- 
len” und die Definition des Begriffs der Algorithmizitat von Felix Stalder.” Dabei sind 
Grenzen und Methoden des neu etablierten Feldes DH noch keinesfalls abgesteckt. 


One of the most exciting things about the field is that it is somewhat uncharted terri- 
tory. From an outside, or even semi-outside perspective it sometimes looks as if »digi- 
tal has become a prefix that enables unfundable projects to become fundable again, 
where the dear old humanities with their close readings, their semiotics, and idle en- 
joyment of the aesthetic value of theory and works of art can, under the guise of fu- 
ture-oriented digitality, benefit from the present discursive and monetary euphoria 
for specific new technologies and methods.” 


Die Unerschöpflichkeit von Definitionen der DH lässt sich auf der Internetseite whatis- 
digitalhumanities.com ablesen®™ und in etwa mit der Frage vergleichen: Was ist Kunst 
(wahlweise auch: Literatur, Religion etc.)? Die heterogenen Konstellationen antagonisti- 
scher Begriffspaare wie digital/analog, digital/präsent, digital/nicht-digital usw. haben 
zu einer unspezifischen Breite allein schon des Begriffs digital geführt.” 


27 Es interessiert dabei besonders die Frage, welches Verständnis von »Theorie< den Forschungen in 
den DH zugrunde liegt (z.B. Theorie als Praxis im Sinne von doing theory, z.B. Reckwitz, A., Rosa, 
H. (2021): Spätmoderne in der Krise. Was leistet die Gesellschaftstheorie. Berlin, S. 25ff. und Kley- 
mann, R. (2023): Theorie. In: AG DH Theorie (Hg.): Begriffe der Digital Humanities. (Anm. 12). 

28 Vgl. Moretti: Conjectures on World Literature. Moretti prägte auch den Begriff des Great Unread im 
Anschluss an Margaret Cohen, der die riesigen Mengen an »primary source material that is not an- 
alyzed by scholars« bezeichnet (Darren Reid (2019): Distant Reading, >The Great Unread«, and the 
19'%-Century British Conceptualizations of the Civilizing Mission. A Case Study. In: Journal of Inter- 
disciplinary History of Ideas, Bd. 15, S. 1. https://journals.openedition.org/jihi/435 [30.10.2023]. 

29 Gius, E./Jacke, J. (2017): The Hermeneutic Profit of Annotation: On Preventing and Fostering Dis- 
agreement in Literary Analysis, In: International Journal of Humanities and Arts Computing 11.2, 
S. 233-254, S. 240. 

30 Schröter, J., Du, K., Dudar, J., Rok, C., Schöch, C. (2021): From Keyness to Distinctiveness — Trian- 
gulation and Evaluation in Computational Literary Studies. In: Journal of Literary Theory 15 (1-2), 
S. 81-108. 

31 Gramelsberger, G. (2023): Philosophie des Digitalen zur Einführung, Hamburg. 

32 Stalder: Kultur der Digitalitat. 

33 Sonnenberg-Schrank, B. (2019): Pathological Philology. Desire, Lack & the Digital Humanities. In: 
Kelemen, P, Pethes, N. (Hg.): Philology in the Making. Analog/Digital Cultures of Scholarly Writing 
and Reading. Bielefeld, S. 57-69, S. 58. 

34 ~whatisdigitalhumanities.com [30.10.2023]. 

35 Zu einer Definition des Begriffs und seiner historisch-semantischen und genealogischen Herlei- 
tung in der Literaturwissenschaft vgl. Jannidis u.a.: Digital Humanities. Eine Einführung, S. Soff. 
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Einen ersten Überblick über wesentliche Bereiche der Digital Humanities gibt die Ein- 
leitung eines Sonderhefts des Digital Journal of Philology, herausgegeben von Jan Horst- 
mann und Frank Fischer.” Dort wird die für die digitale Literaturwissenschaft maß- 
gebliche Bezeichnung Computational Literary Studies (CLS) genannt, die sich gegenüber 
den vormals Digital Literary Studies - ursprünglich ein von James O'Sullivan von 2016 be- 
gründetes Journal - durchgesetzt hat”, insbesondere da, wo es um computergestützte 
Methoden geht. 

Die Polysemie der »digital humanities< wird dort auf dreifache Weise genealogisch 
hergeleitet — von erstens »digitized humanities« als »Aufbau, [...] Verwaltung und Verar- 
beitung digitalisierter Archive«, zweitens »numerical humanities« als »mathematische 
Abstraktionen geisteswissenschaftlicher Inhalte sowie formale Modelle« und drittens 
»humanities of the digital« als Untersuchung von »Online-Kommunikation und -Com- 
munitys bzw. allgemein Inhalte, die born-digital sind«.** Bei der dritten Kategorie geht 
es um die Beobachtung von Digitalisierung in der Gesellschaft. 

Die vorliegende Herausgeberschaft klammert im Gegensatz zu Horstmanns und 
Fischers Band den die Digitalisierung analoger Dokumente betreffenden ersten Be- 
reich der digitalen Editionen aus, einem wesentlichen Zweig innerhalb der DH,” und 
behandelt auch nicht das inzwischen ebenso unüberschaubare Feld der Social-Media- 
Forschung im Anschluss an einen digitalturn, der sich mit der dritten Kategorie von Roth 
deckt. In den hier versammelten Beiträgen steht die zweite Kategorie der Klassifikation 
Roths im Vordergrund, die die »Bedeutung für klassische literaturwissenschaftliche 
Fragestellungen« sowie die »Vermittlungsversuche zwischen traditionellen Ansätzen 
und digitalen Methoden und deren »epistemischen Ausgangslagen«*° fokussiert.“ 
Denn häufig werden diese als inkompatibel wahrgenommen.” Dass »computationelle 
Verfahren häufig nicht traditionelle Fragen der Literaturwissenschaft beantworten - 
auch wenn dies als eigentliches Ziel gesetzt war -, sondern dass sie vielmehr etablierte 
Forschungsdiskurse um weitere Fragemöglichkeiten ergänzen«®, scheint sich häufig 
noch als etwas ernüchterte Synthese in der Literaturwissenschaft abzuzeichnen. 


36 Vgl. Horstmann, J./Fischer, F.:»Einleitung«. In: Dies. (Hg.): Digital Methods in Literary Studies. Son- 
derheft # 6 von Textpraxis. Digital Journal for Philology 1 (2022). URL: https://www.textpraxis.net/e 
n/jan-horstmann-frank-fischer-einleitung, DOI: https://doi.org/10.17879/64059433528. S. 1. 

37 Vgl. Horstmann/Fischer: Einleitung, S. 1. 

38 Vgl. ebd., S. 1. Diese Unterscheidung basiert auf dem Aufsatz von Camille Roth: »Digital, Digitized, 
and Numerical Humanities«. In: Digital Scholarship in the Humanities 34.3 (2019), S. 616-632, hier 
S. 616. DOI: 10.1093 /lIc/fqy057. 

39 An dieser Stelle seien nur einige Datenbanken literarischer Texte und digitalisierter Texteditio- 
nen genannt, die in verschiedenen Textformaten (TEI, XML, TXT, TCF, HTML) vorliegen: Zeno.org, 
Deutsches Textarchiv (DTA), TextGrid Repository, DraCor, KOLIMO, Gutenberg-Projekt, u.v.m. 

40 Horstmann/Frank: Einleitung, S. 4. 

41 Vgl. zur mathematischen Operationalisierung von philosophischen Fragen und einer operati- 
ven Epistemologie auch G. Gramelsberger (2020): Operative Epistemologie. (Re-)Organisation 
von Anschauung und Erfahrung durch die Formkraft der Mathematik. Hamburg: Meiner. DOI: 
10.28937/978-3-7873-3900-6. 

42 Vgl. Horstmann/Frank: Einleitung, S. 4. 

43 Vgl. Horstmann/Frank: Einleitung, S. 4. 


Literaturwissenschaft und Informatik 
Dynamische Relationen zwischen Literaturwissenschaft und Informatik 


Um jenseits eines inzwischen spezialisierten Expert:innen-Diskurses in den DH die Fra- 
ge zu stellen, welche Rolle der Informatik in der transdisziplinaren Zusammenarbeit mit 
der Literaturwissenschaft idealerweise zukommen sollte - als Hilfswissenschaft oder als 
treibender Motor für zukünftige Denkweisen in den Humanities - sollen im Folgenden 
einige dynamische Relationen zwischen Literaturwissenschaft und Informatik in Bezug 
auf (mögliche gemeinsame) Themen, Forschungsfelder und Modelle skizziert werden. 

In der Arbeit mit selbstlernenden Algorithmen hat man es anscheinend zunehmend 
mit black boxes als Teil des Forschungssettings zu tun. Daher wird gerade die informati- 
sche Expertise, aber auch das out-of-the-box Denken, das in den Humanities und in Bezug 
auf die Künste eine lange Theorietradition aufweist, im Bereich von weniger kontrol- 
lierbaren maschinellen Prozessen im Zeitalter des Computing »unserer< Realität immer 
relevanter. In der Literatur und anderen Künsten hat man es mit ästhetisch-kulturel- 
len Symbolsystemen als hochkomplexen multimodalen Artefakten zu tun, deren Codie- 
rungs-,** Kontextualisierungs- oder Semantisierungsprozesse nur mit entsprechendem 
theoretischen Vorwissen sichtbar(er) werden. Auch für die Analyse und Erklärbarkeit des 
Outputs von vortrainierten Machine-Learning-Modellen mit integrierter Transformer- 
Architektur sind fachliche Expertisen von hoher Relevanz, um damit zumindest teilwei- 
se Rückschlüsse auf den Input und die maschinelle Bedeutungsverarbeitung ziehen zu 
können - wie jüngst in einer Studie der Informatik gezeigt werden konnte.“ 

Es gilt also immer noch kulturwissenschaftliche Ansätze wie Theorien zur Sinn- und 
Bedeutungskonstruktion zu vermitteln, wenn unsere Welts, sunsere Realität: und sunse- 
re Erfahrungen: maßgeblich von digitalen Technologien und Differentiationen, Daten- 
förmigkeiten und -kulturen sowie Miningprozessen geprägt sind, die sich in der gegen- 
wärtigen Wahrnehmung als höchst fluktuativ, dynamisch, relational und variabel erwei- 
sen. Die real stattfindenden Wechselwirkungen und gegenseitigen Einflüsse zwischen 
Technologien, Theorien und Erfahrungen sind vielfältig: Einerseits transformieren neue 
Technologien einschneidend unsere sozialen, kulturellen, ästhetischen, medialen und 
materialen Erfahrungen und Vorstellungen, die bereits als mixed realities (Chris Salter)** 
bezeichnet werden. Demgegenüber affızieren und befeuern auch die ästhetisch-kultu- 
rellen, literarisch und medial vorgeprägten, fiktionalen, theoretischen und historischen 
Kon- und Präfigurationen unseres Wissens, unserer Vorstellungen und Imaginationen 
zugleich das Kreieren neuer Technologien und ihre gesellschaftlichen Deutungsdimen- 


44 Vgl. Koschorke, A. (2004): Codes und Narrative. Überlegungen zur Poetik der funktionalen Diffe- 
renzierung. In: Walter Erhart (Hg.): Grenzen der Germanistik. Rephilologisierung oder Erweite- 
rung? Stuttgart, Weimar: Metzler, S. 174-185. 

45 Vgl. Herm, L.-V., Heinrich, K., Wanner, J., Janiesch, C. (2023): Stop Ordering Machine Learning Al- 
gorithms by their Explainability! A User-Centered Investigation of Performance and Explainability. 
In: International Journal of Information Management 69 (2023), 102538, https://doi.org/10.1016/j. 
ijinfomgt.2022.102538 

46 Vgl. Salter, C. (2022): Sensing Machines. How Sensors Shape Our Every Day Life, Cambridge. 
(https://blog.zhdk.ch/immersivearts/, 08.10.2023) 
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sionen.“ Diese (affektiven) epistemischen Dynamiken dabei nicht nur mit historischen 
Kontexten zu rahmen oder abzugleichen, sondern diese historisch-kulturellen Kontex- 
te selbst wiederum auf computationeller Grundlage (unter Berücksichtigung der eige- 
nen Forschungsperspektive) sorgfältig zu überprüfen und empirisch zu belegen, sind 
die neuen Herausforderungen in den digitalen Geisteswissenschaften. Ob beispielswei- 
se die Ergebnisse des Distant Reading, wie das »Lesen< mit quantitativ-statistischen Me- 
thoden bezeichnet wird, auch tatsächlich valide sind, muss wiederum »händisch«< durch 
traditionelles Methodenwerkzeug (z.B. Close Reading = Textstellenlektüre) und die Ex- 
pertise der Literaturwissenschaft überprüft werden. Gerade im Bereich der Literatur- 
geschichte könnte dieses Vorgehen zu neuen Erkenntnissen und unter Umständen zu 
alternativen Literaturgeschichtsschreibungen führen. * 

In diesem hier grob abgesteckten Rahmen kommen den notwendigerweise neu (und 
gemeinsam) zu operationalisierenden Fragestellungen von kulturwissenschaftlich ori- 
entierter Literaturwissenschaft und Informatik sowie der Validität ihrer Ergebnisse eine 
hohe gesellschaftliche Bedeutung zu. Gerade in den DH, einer digitalen Literatur- und 
Medienwissenschaft werden daher Konzepte und Ansätze wie Mixed-Methods-, Multi- 
Methods- oder Entangled-Methods- sowie diffraktive Designs diskutiert, die sich ent- 
weder einer multiplen Perspektivität öffnen und/oder die Reflexion und Diffraktion®” 
der eigenen partialen Perspektive und ihrer Situierheit im Anschluss an Donna Hara- 
way” und Karen Barad?' im Forschungsprozess berücksichtigen. Ins Auge gefasst wird 
dabei die disziplinäre Verschränkung mit der eigenen Theorie- und Methodentradition 
und der Art und Weise des eigenen Schließens und Räsonierens.”” 


47 Vgl. Koch, L., Nanz, T., Pause, J. (2018): Imagined Scenarios of Disruption. A Concept. In: Koch, L., 
Nanz, T., Pause, J. (Hg.): Disruption in the Arts. Textual, Visual, and Performative Strategies for 
Analyzing Societal Self-Descriptions. Berlin/Boston, S. 63-81. 

48 Vgl. dazu auch den Beitrag von Femmer und Lucke im vorliegenden Band. Das ist zum Beispiel der 
Fall, wenn Epochenklassifizierungen nicht mit historisch-empirischen Datenlagen übereinstim- 
men und andere Gruppenzuordnungen (u.a. durch das unüberwachte Lernen) erforderlich wer- 
den. 

49 Vgl. Eickelmann, J. (2020): Digitale Medien und Methoden. Jennifer Eickelmann zu Diffraktion 
als Methode. In: Open Media Studies. Blog zu Open Access und Open Science in der Medienwis- 
senschaft. Marburg (aktualisiert am 27.09.2023). https://mediastudies.hypotheses.org/2230; vgl. 
auch Eickelmann, J. (2017): »Hate Speech« und Verletzbarkeit im digitalen Zeitalter. Phänomene 
mediatisierter Missachtung aus Perspektive der Gender Media Studies, Bielefeld und Eickelmann, 
J., Meis, M. (2023): Diffraktive Ethnographie Sozialer Medien: Diskurs - Ästhetik — Materialität. In: 
S. Stollfuß et al. (Hg.): Handbuch Digitale Medien und Methoden. Wiesbaden, S. 1-25 (https://doi 
.org/10.1007/978-3-658-36629-2_14-2, 08.11.2023). 

50 Haraway, D. (2007): Situiertes Wissen. Die Wissenschaftsfrage im Feminismus und das Privileg 
einer partialen Perspektive. In: Hark, S. (Hg.): Dis/Kontinuitat. Feministische Theorie, Wiesbaden, 
S. 305-322. 

51 Barad, K. (2013): Diffraktionen: Differenzen, Kontingenzen und Verschränkungen von Gewicht. In: 
Geschlechter Interferenzen. Wissensformen — Subjektivierungsweisen — Materialisierungen. Hg. 
von Corinna Bath/Hanna Meißner/Stephan Trinkaus/Susanne Völker. Berlin, S. 27-67 und Karen 
Barad, K. (2015): Verschränkungen. Berlin. 

52 Vgl. Kleymann: Datendiffraktion. 
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Literaturwissenschaft und Informatik 
»Fremde« Wissenschaftskulturen? 


Die mit Blick auf Forschungsgegenstand, Theorie und Methode sehr unterschiedlichen 
akademischen Fachdisziplinen Literaturwissenschaft und Informatik werden in diesem 
Band in einen gleichermaßen herausfordernden wie auch gewinnbringenden Dialog 
gebracht, bei dem die zwischen beiden Disziplinen auftretenden obstacles épistémolo- 
giques (Gaston Bachelard) die Chance bieten, die eigenen disziplinären Wissens- und 
Erkenntnisgrenzen zu überschreiten. Die Überwindung dieses »Erkenntnishinder- 
nisses« erscheint dabei als ein Akt der (Selbst-)Erkenntnis für die Form des eigenen 
Wissens (und seiner Denkstile) sowie seiner Voraussetzungen. Diese verweisen auf 
gemeinsame Wurzeln des Denkens,” bevor Differenzierungsprozesse und Systemab- 
schließungen?* die modernen Disziplinen Natur- und Geisteswissenschaften gegen 
Ende des 19. Jahrhunderts sendgültig« voneinander trennten (Wilhelm Dilthey).*° 

Nicht nur für die Literaturwissenschaft ist die Informatik eine >fremde< Wis- 
senschaft - beispielsweise Programmierungen als Teil von Software-Engineering, 
Computersprachen und Entwicklungsumgebungen, Algorithmen, Datenstrukturen, 
-management und -formate, Data-Mining-Verfahren, KI-Systeme, Datenbanken, 
computerlinguistische Sprachverarbeitung sowie nicht zuletzt statistischer und mathe- 
matischer Verfahren (z.B. Clusteranalysen, Vektorisierung). Auch die Informatik sieht 
sich mit den Anforderungen von äußerst heterogenen (hermeneutischen, strukturalis- 
tischen, poststrukturalistischen, diskursanalytischen, systemtheoretischen, medien- 
und kulturwissenschaftlichen) Zugängen und Methoden der Literaturwissenschaft’® 
konfrontiert, die auf einer inhaltlichen und semantischen Ebene häufig Sinn und 
Bedeutung von Texten in ihren jeweiligen historischen Kontexten verhandeln. 

Solche hermeneutischen, interpretativen und verstehenden Verfahren stehen häufig 
noch konträr, auch komplementär, zu den quantitativen Datenauswertungen, determi- 
nistischen und rechnerischen Verfahren, statistischen Häufigkeitsmessungen und Pro- 
grammen der Informatik.” 


53 Vgl. zu den ersten (und unzureichenden) mathematischen Formalisierungsansätzen philosophi- 
scher Inhalte Lucke: Schillers Ästhetische Briefe als Literatur, S. 30. Vgl. auch Nerbonne: Die Infor- 
matik als Geisteswissenschaft. 

54 Vgl. Niklas Luhmann (1998): Gesellschaftliche Struktur und semantische Tradition. In: Ders.: Ge- 
sellschaftsstruktur und Semantik. Studien zur Wissenssoziologie der modernen Gesellschaft. Bd. 
1, Frankfurt a.M. S. 9-71, S. 27ff. 

55 Vgl. Roland Borgards/Harald Neumeyer/Nicolas Pethes/Yvonne Wübben: Vorwort. In: Borgards 
u.a. (Hg.): Literatur und Wissen. Ein interdisziplinäres Handbuch. Stuttgart, S. 1. 

56 Zur historischen Anbahnung der methodenpluralistischen Situation der Literaturwissenschaft, 
vgl. Konle, L., Jannidis, F., Martus, S. (2021): Disruptionen der Literaturwissenschaft am Beispiel der 
DVjs. Methodische Validierung durch Simulation und Anwendung. In: Fabrikation von Erkenntnis: 
Experimente in den Digital Humanities. Sonderband 5 der ZfdG. Hg. v. von M. Burghardt, L. Dieck- 
mann, T. Steyer, P Trilcke, N.-O. Walkowski, J. Weis, U. Wuttke, Melusina Press, S. 2. DOI: https://d 
oi.org/10.17175/sboos 

57 Evelyn Gius spricht auch von non-deterministischen Zugangen der literaturwissenschaftlichen, 
speziell hermeneutischen, Verfahren und von deterministischen (=entscheidbaren) der Informa- 
tik (insb. des Data Minings), vgl. Gius/Jacke: Informatik und Hermeneutik. Eine Ausnahme dazu 
bildet der Kl-Ansatz. 
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Demgegenüber geht es besonders in literarischen Texten eher um das Einzelne 
und Besondere, wie das einzelne Phänomen oder eine spezielle, mal individuelle, mal 
kontextabhängige Bedeutung. Aber auch das Gegenteil ist der Fall: Unentscheidbarkeit, 
Vieldeutigkeit bis hin zur Beliebigkeit oder das Unbestimmte, das Inkommensurable 
(Heidegger), Offene (Umberto Eco) wie auch Widersprüchliche und Paradoxe (Friedrich 
Schiller, Dieter Mersch) perspektivieren oft im selben Text die Grenzen der (eigenen) 
Verstehbarkeit und des Nicht- bzw. Vorbegrifflichen, die in der Literaturwissenschaft 
qualitativ offene Zugangsweisen zu (literarischen) Texten und ihren intermedialen 
Bezügen zu anderen Künsten notwendig machen. Die Untersuchungsgegenstände 
bestimmen häufig die Untersuchungskategorien”®, denn die Vielzahl und Vielfalt 
der Gegenstände erstrecken sich von Autorschaft(skonstitutionen), Gattungsfragen, 
Themenkomplexen und Motivtraditionen über ästhetisch-poetologische Programme, 
Epochisierungen und kulturellen Wandel bis hin zu »Lektüren<, Erzähltechniken, rhe- 
torischen und sprachlichen Strategien, künstlerischen Praktiken, medial-materialen 
Bedingungen u.v.m. Einen Text in seinem spezifischen Kontext (wie Werk-, Epoche-, 
Gattungskontext, sozio-kultureller Problematik usw.) zu befragen und zu verstehen 
entscheidet über die Wahl des Zugangs. Je nach Fragestellung (z.B. nach der Gattung) 
wählt man die passende Methode (z.B. die Erzähltextanalyse) aus. Bei der Analyse von 
spezifischen und seltenen Phänomenen in einem literarischen Text, sog. sparse data 
oder rare events”, wäre im Kontext eines digitalen Forschungssettings beispielsweise 
die Überlegung ratsam, ob statt des Mittelwerts eher der Median in der statistischen 
Analyse verwendet werden sollte.‘° 

Ähnliche Modelle in beiden Disziplinen finden sich im Umgang mit Differenz-, Lo- 
gik- und Formkalkülen“ oder mit Übersetzungen von einer rein hypothetischen, geis- 
tigen und gedanklichen (Vor-)Arbeit in sprachliche oder zeichenbasierte Operationen.” 
Weitere Ähnlichkeiten finden sich in der (binären) Modellierung von Codes und Zeichen, 
sprachlichen und syntaktischen Strukturen, (latenten) Tiefen- und Oberflachenstruktu- 
ren bzw. Relationen von Sichtbarkeiten und Unsichtbarkeiten. 

Aus Sicht der Informatik sind wegen komplexer kulturwissenschaftlicher Frage- 
stellungen und Analysen der Literaturwissenschaft teilweise multimodale Ansatze oder 
Verfahren aus dem Bereich des Machine Learnings gefordert, die bei dieser Anwendung 
gleichzeitig auf die Probe gestellt werden. Denkbare zukiinftige Anwendungsgebiete 
von LLMs in Kombination mit hermeneutischen Verfahren in der Literaturwissen- 
schaft waren vielleicht die rhetorische Figurenanalyse, metaphorisches Schreiben®, 


58 Vgl. https://fortext.net/tools/tols/catma. 

59 Vgl. dazu Gius/Jacke: Informatik und Hermeneutik. 

60 Denn nach dieser Logik hätte der statistische Ausreißer (auch der Median) einen höheren heuris- 
tischen Wert als der statistische Mittelwert. 

61 Dirk Backer (1993): Kalkül der Form. Frankfurt a.M. und Sybille Krämer (1991): Berechen- 
bare Vernunft: Kalkül und Rationalismus im 17. Jahrhundert, Berlin, Boston: de Gruyter. DOI: 
10.1515/9783110847079. 

62 Vgl. Gramelsberger: Philosophie des Digitalen. Vgl. auch Nerbonne: Die Informatik als Geisteswis- 
senschaft. 

63 Vgl. dazu den SFB 1475 »Metaphern der Religion«— Religiöse Sinnbildung in sprachlichen Pro- 
zessen https://ceres.rub.de/de/forschung/projekte/sfb1475/, 08.10.2023). Der SFB verfügt über ein 
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oder kulturelle und ästhetische Differentiationsprozesse. 

Der Perspektive der Informatik ist also im Kanon der geisteswissenschaftlichen 
Theorien ein (neuer) Platz zuzuweisen, um neue Forschungsperspektiven, digitale 
Technologien und Verfahren einerseits bereit zu stellen, andererseits auch angemessen 
kommentieren zu können, was sich den herkömmlichen Zugängen der Geisteswissen- 
schaften entzieht. 


Probleme der Messbarkeit: Operationalisierung, Formalisierung 
und Validierung 


Die Vorteile von computer- und rechengestützten Methoden in den Geistes- und Kul- 
turwissenschaften liegen auf der Hand: Digitale Analysen und Klassifizierungen großer 
Korpora sind möglich (»Literature as Big Data«°*), ebenso quantitative Erkenntnisse, die 
vom Menschen so nicht produziert werden können, so dass sich literaturwissenschaft- 
liche Forschung in die Richtung einer evidenz- und empiriebasierten Forschung (wei- 
ter)entwickeln kann. Es können viele Texte, Epochen, Gattungen bzw. Genres oder Au- 
tor:innen (z.B. im Hinblick auf Ähnlichkeit oder Disruption) miteinander verglichen 
und gleichzeitig darüber hinaus mehrere Kontexte (sog. Referenzkorpora) herangezo- 
gen werden. Groß angelegte maschinelle und skalierbare Vergleiche zu vielen weiteren 
Textkorpora (sog. Makroanalysen) stellen kein Problem mehr dar. So fortschrittlich alles 
auf den ersten Blick wirkt, ergeben sich daraus nicht zu unterschätzende erkenntnis- 
theoretische Implikationen für die Literaturwissenschaft wie zum Beispiel die Proble- 
matik, dass eine datenbasierte Textanalyse literarische und literaturwissenschaftliche 
Daten tendenziell undifferenzierter erscheinen lässt.” 

Die Messbarkeit, definiert als »Zuordnen von Zahlen zu Objekten nach bestimmten 
Regeln«®, führt weitere in den Naturwissenschaften, aber auch den empirischen Sozi- 
alwissenschaften längst bekannte Probleme mit sich, denn »die Schwierigkeiten einer 
solchen Begriffsbildung liegen natürlich in den »bestimmten Regeln««.° 


Bevor man versucht, eine Eigenschaft zu messen, sollte man sich zunächst überlegen, 
was eigentlich eine Eigenschaft ist. [...] Man kann aber festhalten, daß eine Eigenschaft 
von Objekten durch Beziehungen (Relationen) zwischen diesen Objekten festgelegt 


methodisches Instrumentarium, das in allen Teilprojekten genutzt wird: Metaphernannotation, 
hermeneutische Interpretation und computergestützte Analysen. 

64  Sonnenberg-Schrank: Pathological Philology, S. 60. 

65 Vgl. Konle u.a.: Disruptionen der Literaturwissenschaft am Beispiel der DVjs. 

66 Vgl. zum Beispiel das Projekt des Goethe-Wörterbuchs (Thesaurus-Wörterbuch) der Hamburger 
Arbeitsstelle der Akademie der Wissenschaften zu Göttingen zur historischen Semantik und Er- 
schließung des Individualwortschatzes von Goethe (https://adw-goe.de/forschung/forschungspr 
ojekte-akademienprogramm/goethe-woerterbuch/, 08.10.2023). 

67 Vgl. Horstmann/Fischer: Einleitung, S. 2. 

68 Heinrich Wottawa: Psychologische Methodenlehre. Eine orientierende Einführung. Weinheim/ 
München 1993, S. 60 

69 Wottawa: Psychologische Methodenlehre, S. 61. 
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wird. So spricht man von der Eigenschaft >rot«, weil es Objekte gibt, die zusammen die 
Menge roter Objekte bilden. Dieser Menge steht eine Menge der »nicht roten: Objekte 
gegenüber. ’° 


Ein Problem der Validität” ist zum Beispiel das der adäquaten Formalisierung von kul- 
turwissenschaftlichen Kategorien bzw. der Operationalisierung der (kultur- oder litera- 
turwissenschaftlichen) Fragestellung in ausgewählte Indikatoren - in der Sprache der 
Informatik: in generierte Daten - für das, was man inhaltlich vollständig erfassen und 
numerisch messen möchte. ” 


Operationalizing means building a bridge from concepts to measurement, and then 
to the world. In our case: from the concepts of literary theory, through some form of 
quantification, to literary texts.” 


In der Informatik muss man Daten für Programme formal aufbereiten; das ist ein 
notwendiger Transformationsprozess, bei dem Operationalisierungs- und Validie- 
rungsprobleme auftreten kénnen. Diese Problematik ist in der Informatik gut bekannt 
und erforscht. 

Für die Informatik wären daher also Analysen von spezifischen Anforderungen (Re- 
quirements) relevant, insbesondere auch vor dem Hintergrund methodologischer Debat- 
ten in der Informatik über die Validität von Ergebnissen. Mit dem Entwerfen von Pro- 
grammen istes hier nicht getan, es folgt eine Überprüfung, ob beispielsweise die Findings 
des Programms auch als brauchbare Ergebnisse im Sinne der Aufgaben- und Fragestel- 
lung taugen oder womöglich verzerrt, falsch (Stichwort: Bias-Effekte) oder überinter- 
pretiert bzw. gar nicht aussagekräftig sind.” 


70 ottawa: Psychologische Methodenlehre, S. 61. 

71  »Validität bezieht sich auf das Ausmaß, in dem die gemessene Variable das ihr zugrundeliegende 
Konstrukt vollständig erfaßt.« (Manstead, A. und Semin, G. (1997): Methoden der Sozialpsycholo- 
gie: Ideen auf dem Prüfstand. In: Stroebe, W. et al.: Sozialpsychologie, Berlin/Heidelberg, S. 100. 

72 Die Gültigkeit von Theorien vor dem »Ableitung von Hypothesen« oder der »Formalisierung des 
gedanklichen Ansatzes« ist aber gerade nicht so einfach empirisch überprüf- und testbar, da in 
die Formalisierungs- und Operationalisierungsarbeit häufig zusätzliche Annahmen miteinflie- 
ßen, die nicht in der Theorie enthalten sind (vgl. H. Wottawa (1993): Psychologische Methoden- 
lehre. Eine orientierende Einführung, Weinheim/München, 5. 18). Hier müsse man mit Mitteln der 
formalen Logik operieren und prüfen, ob die Hypothesen aus den Theorien ableitbar seien (sonst 
könne man nicht entscheiden, ob die »Theorie ungünstig zu beurteilen ist, oder ob die Theorie 
gültig und nur diese zusätzlichen Annahmen nicht erfüllt waren«, ebd. Vgl. auch die Annotatio- 
nen der Verfasserin zu Schröter: Mixed Methods (Anm. 6)). 

73 Moretti, F. (2013): Operationalizing: or, the function of measurement in modern literary theory. In: 
Pamphlets of the Stanford Literary Lab 6 (2013), S. 1-13, S. 1. 

74 Vgl. den Beitrag von Femmer/Lucke im vorliegenden Band. Vgl. zu Bias-Effekten auch den Beitrag 
von Lucke im vorliegenden Band. 
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Paradigmenwechsel in der Literaturwissenschaft? 


Viele sprechen schon von einem Paradigmenwechsel.” In jüngerer Zeit mehren sich 
auch insbesondere Studien in den DH-Wissenschaften, die nahezu standardisierte 
Forschungsdesigns und Publikationsformate verwenden, die sich offensichtlich an den 
Natur- und Ingenieurwissenschaften orientieren und neben der Fragestellung Metho- 
den und Materialien sowie Aufbereitung und Auswertung von Forschungsdaten und 
Ergebnissen aufführen.” Derartige und andere den Diskurs der DH begleitende For- 
schungspraktiken werden häufig von Seiten der Geistes- und Literaturwissenschaften 
noch mit Skepsis betrachtet.” Beim digitalen Methodenimport scheint es um mehr zu 
gehen als die bloße Implementierung von digitalen Tools in den (Digital) Humanities 
oder in der digitalen Lehre; ihre Bedeutung jedoch gleich auf der Höhe einer Transfor- 
mation”? oder eines Paradigmenwechsels in der Literaturwissenschaft anzusetzen, ist 
umstritten.” Auch die Integration der Informatik in andere Wissenschaften wie die 
Biologie war mit großen Veränderungen verbunden und hat eine neue Teildisziplin her- 
vorgebracht: die Bioinformatik. Aufhalten lässt sich der Einzug von digitalen Tools und 
Methoden in die Literaturwissenschaft wohl eher nicht, zu diskutieren und zu gestalten 
ist jedoch die sinnvolle und praktikable Integration dieser in den Forschungsprozess 
von literatur- und kulturwissenschaftlicher Modellierung und Theoriebildung. 

Eine mögliche neue Perspektive für die Geisteswissenschaften deutet sich in der fol- 
genden Aussage von Thomas Weitin an: 


Die in den Geisteswissenschaften im Ringen um Aufmerksamkeit weitgehend habi- 
tualisierte Orientierung an Originalität lässt uns das manchmal fast vergessen. Die 
unvermeidliche Empirie digitaler Methoden bietet womöglich eine Gelegenheit, die 
Kategorien origineller Erkenntnis selbst neu zu verhandeln.?° 


75 Vgl. Weitin: Digitale Literaturgeschichte, S. 2. 

76  Vgl.im CfP für die Tagung der DHd 2024 (Digital Humanities im deutschsprachigen Raum): »Eine 
gute Einreichung folgt den Prinzipien guter wissenschaftlicher Arbeit und beschreibt in inhaltlich 
und formal strukturierter Weise Forschungsfrage, Material, Methode und Ergebnisse.« (https://di 
g-hum.de/aktuelles/call-for-papers-dhd2024, 13.07.2023) 

77 Vgl. Kramer, S., Huber, M. (2018): Dimensionen Digitaler Geisteswissenschaften. In: Zeitschrift 
für digitale Geisteswissenschaften. Wolfenbüttel. text/html Format. DOI: 10.17175/sbo03_013, 
08.10.2023. 

78  Interessanterweise bezeichnen die DH sich selbst als Transformationswissenschaft, vgl. Weitin: 
Digitale Literaturwissenschaft, S. 1. 

79 Dabeirückt der Begriff Paradigma selbst in den Blick und wird»semantisch weiter ausdifferenziert«, 
vgl. Kleymann: Datendiffraktion. 

80 Weitin: Digitale Literaturgeschichte, S. 4. 
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Die Rolle der (digitalen) Hermeneutik®' 


In der kontroversen Debatte um die erkenntnistheoretischen Auswirkungen beim Ein- 
satz von digitalen Methoden stellt sich mitunter die Frage, warum ausgerechnet die Her- 
meneutik, die als klassische literatur- und geisteswissenschaftliche Methode der Inter- 
pretation bekannt ist, als Sparringspartnerin der DH ins Feld geführt wird.” Dabei for- 
dern die Digital Humanites nicht nur hermeneutische, sondern auch anti-hermeneuti- 
sche Ansätze (wie dekonstruktive Ansätze) heraus. In der Literaturwissenschaft war die 
Hermeneutik u.a. aufgrund des Problems des Verstehens durch den Strukturalismus in 
den 1960ern und späteren Poststrukturalismus teilweise abgelöst worden. 

Für die Konzentration in den DH auf die Methode der Hermeneutik gibt es einige mög- 
liche Erklärungen: 


1. Der Streit zwischen dem Strukturalismus, der für die mathematische Struktur der 
Sprache steht (z.B. als zählbare Seme**) und der Hermeneutik als Interpretation, die sich 
einer mathematischen Auszählung gegenüber sperre, beschäftigte bereits Heidegger.** 
Die Interpretation gleiche einer unerschöpflichen Analyse, was laut Beda Allemann mit 
Heidegger ein Argument für die Interpretation sei, da das interpretatorische Verfahren 
auch Unausgesprochenes, Nicht-Empirisches bzw. Inkommensurables zeige. Das Werk 
sei immer etwas, das sich entziehe.°° Nach Heidegger sei also das (literarische) Werk 
nicht (nur) empirisch zu erforschen, da es sich seiner Auffassung nach um ein Konstrukt 
handele, welches hinter bzw. jenseits seiner empirischen Zugänglichkeit liege. Hier be- 
findet man sich allerdings schon im Grenzbereich zur Metaphysik.?‘ 


2. Eine weitere Erklärung für den Fokus aufhermeneutische Verfahren lässt sich in einer 
Formalisierungs- und Operationalisierungsproblematik dieses Verfahrens auffinden: 


Die Modellierung geisteswissenschaftlicher Artefakte geht dabei natürlich stets ein- 
her mit der Formalisierung von Forschungsfragen, die- angepasst an die Modellie- 


81 Vgl. zur Rolle der Hermeneutik in der Literaturwissenschaft und im Projekt heureCLEA auch Gius/ 
Jacke: Informatik und Hermeneutik. 

82 Jan Horstmann und Frank Fischer fragen zum Beispiel »nach der Relation von quantitativ-nume- 
rischen Analysemethoden und hermeneutischem Erkenntnisinteresse«, vgl. Horstmann/Fischer: 
Einleitung, S. 3. 

83 Ein Sem ist ein linguistischer Begriff für die kleinste Einheit der Bedeutung eines Worts: So be- 
inhaltet »Mutter< z.B. das Sem »weiblich«. »Königin«, »Frau«, »Löwin« und >Tochter< enthalten auch 
das Sem »weiblich«. 

84 Vgl. die Rezeption Heideggers im Anschluss an Beda Allemann (1954): Hölderlin und Heidegger, 
Zürich/Freiburg. 

85 Übrigens ist das ein dekonstruktiver Gedanke par excellence. 

86 An dieser Stelle soll nicht verschwiegen werden, dass Heidegger versuchte, neben den beiden For- 
schungsrichtungen des positiv-empirischen Strukturalismus und einer konstruktivistischen Inter- 
pretation etwas Drittes vorzuschlagen, dass keine »Aneignung« von Texten bzw. Theorien vorsehe, 
sondern als eine Art »Hin-Hören« bezeichnet werden könnte. 
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rungskategorien-von vornherein viel spezifischer formuliert werden müssen als man 
dies in klassischen hermeneutischen Verstehensprozessen erwartet.?” 


Als eine eher qualitative Methode des »Verstehens« repräsentiert die Hermeneutik eine 
diametral entgegengesetzte Forschungspraxis in den Geistes- und Kulturwissenschaf- 
ten gegenüber den Formalisierungsvorgaben in der Informatik. Die »Algorithmisierbar- 
keit von literatur- und kulturwissenschaftlichen Forschungskategorien erscheint kom- 
plex, wenn die Gegenstände in der Literatur und anderer Künste offene Lesarten und 
mehrdeutige oder selbstreferentielle Sinnbezüge aufweisen. Eine Konsequenz dessen ist 
die derzeitige Rückbesinnung auf differenzfähige philologische und ästhetische Katego- 
rien wie »Epoche«, »Autor:in«, »Werk«, »Ähnlichkeit« (Foucault), »Geschlecht« (wie bei der 
Autorschaftsattribution®®) oder »Stil (wie in der Stilometrie) in den Digital Humanities, 
die sich insbesondere hinsichtlich ihrer Unterscheidbarkeit (distinctiveness?) für die For- 
malisierung von literaturwissenschaftlichen Analysekategorien bei der computationel- 
len Analyse literarischer Texte zu eignen scheinen. 


3. Im Kontext der DH wird außerdem vermehrt auf das Operationalisierungs- und Vali- 
dierungspotential von (manuellen) hermeneutischen Verfahren für quantitative Verfah- 
ren und ihre Ergebnisse verwiesen: 


This paper aims to solve these methodological issues concretely for the concept of 
distinctiveness and thus to lay the methodological foundation permitting to opera- 
tionalize quantitative procedures in order to use them not only as rough exploratory 
tools, but in a hermeneutically meaningful way for research in literary studies.”° 


Epistemologische vs. methodologische Problematik 


Neben der epistemologischen Grundsatzdebatte in den DH wird auch Kritik an der 
»epistemologischen Kritik« geübt: Diese stammt aus der DH-Community selbst. Häufig 
wird dabei auf die lange Tradition des Methodenstreits in den Sozial- und Sprachwis- 
senschaften verwiesen (paradigm wars:).” 


From the epistemological perspective, the question is: Are quantitative and qualita- 
tive research dealing with the same world of objects at all or do both fields of research 
construct their own worlds, which are not interconnected, and which do not refer to 
the respective other world??? 


87 M. Burghardt (2023): Kritische Überlegungen zum Algorithmizitatsbegriff. Blogpost, https://dhth 
eorien.hypotheses.org/1316. 

88 Vgl. Weitin, T. (2021): Digitale Literaturgeschichte, Berlin. 

89 Vgl. Schröter u.a.: From Keyness to Distinctiveness. 

90 Schröter u.a.: From Keyness to Distinctiveness, S. 81. 

91 Vgl. Kleymann: Datendiffraktion. 

92 Schröter u.a.: Keyness and Distinctiveness, S. 86. 
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Laut Schröter et al. (2021) gibt es derartige Kritik, die die erkenntnistheoretischen Kon- 


sequenzen für die Geisteswissenschaften durch ihren Digitalisierungsprozess betrifft, 


von Anbeginn der DH an und verhindert letztlich praktikable Lösungen in der wesentli- 


chen Frage der Kompatibilität von traditionellen und digitalen Methoden.” 


Remarkably, parts of the intense debates of the last years on the relevance of digi- 
tal humanities research to proper issues of traditional humanities, in particular argu- 
ments that reject such relevance in general," rest on such epistemological reason- 
594 

ing. 


Demgegenüber vertreten Schröters et al. (2021) die folgende These: 


This gap, which is well known in the social sciences and especially in the field of 
mixed methods research surrounding discussions on integration and triangulation 
(Hammersley 2008; Flick 2011; Kelle 2017), can be addressed either from an episte- 
mological or from a methodological perspective. [...] 

Instead, we will address the epistemic gap from its methodological perspective. In 
digital humanities research, the methodological dimension of this problem arises 
for all concepts that have undergone a quantitative and mathematical operational- 
ization, such as »topic« in topic modeling (Blei 2012), »style< in stylometry (Burrows 
2002; Herrmann/Dalen-Oskam/Schöch 2015) and also the concepts of keyness and 
distinctiveness. The methodological issue of integrating quantitative and qualitative 
reasoning can also be expressed in terms of validation: As we expect quantitative 
procedures such as candidate measures of distinctiveness to contribute to qualitative 
research, the idea of qualitative validation of quantitative procedures has to be 
developed.” 


Vorschläge für eine praktikable transdisziplinäre Zusammenarbeit 


Im Anschluss an den eingeschlagenen theoretischen Perspektivwechsel im DH-Diskurs 


von Schröter et al. (2021) werden hier einige praktikable Vorgehensweisen in der trans- 


disziplinären Arbeit vorgeschlagen: 


1. Eine Differenzierung von epistemologischen Problematiken als Auslöser der Diskussion, die 


den Diskurs der DH seit seiner Genese begleitet, und methodologischen Herausforderungen 
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Vgl. Schröter u.a.: From Keyness to Distinctiveness, S. 86. 

Schröter u.a.: Keyness and Distinctiveness, S. 86. »Interestingly, the intensity of these debates 
shows that scholars of computational literary studies in large parts aim at contributing to proper 
questions of literary studies (most comprehensively and recently Underwood 2019). So do we, but 
we will not contribute to the epistemological dimension of this gap, which extends to issues that 
have to be addressed on the level of metaphysical reasoning.« (Ebd.) 

Schröter u.a.: Keyness and Distinctiveness, S. 86f. » However, the mere act of designating a spe- 
cific quantitative procedure as a »measure of keyness< or a »measure of distinctiveness: does not 
guarantee that this procedure will give any insight into a qualitatively ambitious understanding 
of distinctiveness or keyness. We call this the epistemic gap between the output of a quantitative 
procedure and a qualitative expectation« (S. 86). 
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wird als hilfreich erachtet. Methodologische Debatten zwischen quantitativen und qua- 
litativen Verfahren in den Sozial- und Humanwissenschaften halten entsprechende Lö- 
sungsansätze bereit (vgl. 2.). 


Based on a structural definition of potential candidate measures for analyzing dis- 
tinctiveness in the first section, we offer a systematic description of the issue of in- 
tegrating quantitative procedures into a hermeneutically meaningful understanding 
of distinctiveness by distinguishing its epistemological from the methodological per- 
spective.’ 


Aus dieser Verlagerung der Perspektive auf die verschiedenen Paradigmen folgen bei- 
spielsweise folgende methodologische Fragestellungen: Welche Kategorien, Ergebnisse 
und Unterscheidungsmerkmale aus quantitativen Prozeduren haben also welche qua- 
litative Relevanz und Bedeutung für die jeweiligen Forschungsgegenstände in der Li- 
teraturwissenschaft, in der Informatik oder in den DH? Und welche (qualitativen) Re- 
duktionen (z.B. von Kontext oder Transparenz) werden durch mathematische Operatio- 
nen vorgenommen (z.B. durch Vektor-Normalisierung” oder Skalieren beim K-means- 
Clustering mit dem System R°”)? 


2. Mixed-Methods-Designs”, Multi-Methods-, Entangled-Methods-°° oder diffraktive De- 
signs’ und transdisziplinäre Ansätze: 
Um der hohen multimodalen Komplexität literatur- und textförmiger Gegenstände und 


96 Schröter u.a.: Keyness and Distinctiveness, S. 82. »We will address the methodological perspec- 
tive of the issue of integrating the quantitative concept of distinctiveness into qualitative research 
by asking: How do we make sure that a quantitative procedure f(w | A, B), as delineated in the 
first section, returns distinctive features which are distinctive from the point of view of qualitative 
meaning?« (S. 87) 

97 Büttner u.a.: »Delta« in der stilometrischen Autorschaftsattribution. 

98 Beim K-means-Clustering werden die Variablen mithilfe von zwei mathematische Operationen 
vorverarbeitet: Skalierung der Variablen pro Attribut auf einen Mittelwert von o mittels Subtrak- 
tion des Mittelwerts und auf eine Standardabweichung von 1 mittels Division durch die Standard- 
abweichung, s. Anhang im Downloadbereich auf GitHub. 

99 Vgl. dazu besonders Schröter, J. (2023): Mixed Methods. In: AG Digital Humanities Theorie des 
Verbandes Digital Humanities im deutschsprachigen Raum e. V. (Hg.): Begriffe der Digital Hu- 
manities. Ein diskursives Glossar (=Zeitschrift für digitale Geisteswissenschaften/Working Pa- 
pers, 2). Wolfenbüttel, 25.05.2023. HTML/XML/PDF. DOI: 10.17175/wp_2023_008 Das bedeutet die 
kombinierte Anwendung von z.B. geisteswissenschaftlichen und hermeneutischen sowie compu- 
tergestützten, digitalen, quantitativen und statistischen Methoden oder auch Triangulation. So 
praktizieren es häufig die Sozialwissenschaften: Nach einer qualitativen Vorstudie wird statis- 
tisch-quantitativ weiter geforscht und überprüft, ob die Ergebnisse repräsentativ sind. Im For- 
schungsprozess der DH zeigt sich häufig ein umgekehrtes Verfahren: Erst erfolgt eine explorative 
(Vor-)Studie. Falls es Auffälligkeiten oder Abweichungen gibt, wird in den Texten manuell nach- 
geschaut und es werden Erklärungen (post-hoc-explanations) gesucht. Große Textmengen können 
prinzipiell zur Annahme verführen, etwas sei objektiv. 

100 Kleymann: Datendiffraktion. 

101 Die Konzepte der Verschrankung und Diffraktion gehen auf Karen Barad zurück, nach dem opti- 
schen Phänomen der Diffraktion benannt (vgl. Eickelmann: Digitale Medien und Methoden). 
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ihrer intermedialen Übergänge zu genügen, schlagen wir vor, theoretisch-deduktive 
und explorativ-induktive Methodiken miteinander zu verbinden und zu verschrän- 
ken, wie in Mixed-Methods-Designs, außerdem inter- und transdisziplinäre Ansätze 
miteinander zu kombinieren. Zu Mixed-Methods-Designs existieren ebenfalls bereits 
Lösungen aus anderen Disziplinen wie den Sozialwissenschaften, der Statistik, der 
Informatik, der Computerlinguistik, der Sprachphilosophie usw.'” 
Mixed-Methods-Ansätze kommen aus der Sozialforschung und setzen eine prinzipielle 
Kompatibilität (Vereinbarkeit) von quantitativen und qualitativen Methoden voraus: 


Damit wenden sich Mixed-Methods-Ansätze tendenziell gegen eine Inkompatibi- 
litätsthese, die von einer Unvereinbarkeit qualitativer und quantitativer Methoden 
aufgrund inkommensurabler Paradigmen ausgeht. Im Rahmen eines Methodendua- 
lismus werden von den Vertreter*innen quantitative Methoden mit dem (Post-)Positi- 
vismus und qualitative Methoden mit dem Konstruktivismus assoziiert.) Ausgehend 
von der Kompatibilität wird in der Mixed-Methods-Forschung der Paradigmenbegriff 
semantisch weiter ausdifferenziert. So können Paradigmen neben Weltansichten 
(im Sinne von Glaubenssystemen) auch epistemische oder metaphysische Grund- 
haltungen, geteilte Überzeugungen zu Forschungsfragen sowie Durchführungen von 
Studien beschreiben.’ 


Entangled-Methods-Ansätze (auch diffraktive Ansätze) beschreibt Rabea Kleymann im 
Anschluss an Karen Barad in ihrer intraaktiven Verschränkung, und zwar nicht als 
methodische Interaktion wie bei Mixed-Methods-Ansätzen, sondern als Intraaktion, in 
der Auseinandersetzung mit den (eigenen) Paradigmen, konstitutiven Differenzen und 
der eigenen Kontextualität, was auch Praktiken der Datenmodellierung miteinbeziehen 
würde.'* 

Der Grundgedanke in Mixed-Methods- oder Entangled-Methods-Ansätzen ist, dass 
Methodendichotomien (wie qualitativ/quantitativ, close/distant, induktiv/deduktiv, 
empirisch/hermeneutisch, theoretisch/praktisch) prinzipiell überwunden oder die 
vermeintlichen< Gegensätze zumindest reflektiert werden.'” Als Verbindung und Ver- 


102 Vgl. Weitin: Digitale Literaturgeschichte, S. 3. Eine direkte Übertragung von Debatten über metho- 
dologische Schwierigkeiten der Mixed-Methods-Forschung aus den Sozialwissenschaften in die 
Digital Humanities sollte laut Schröter allerdings eher vermieden werden, da dort andere theore- 
tische Paradigmen und Problemlagen zugrunde liegen (vgl. Schröter: Mixed Methods). 

103 Kleymann: Datendiffraktion. 

104 Vgl. Kleymann: Datendiffraktion. In diesem Sinne könnten nach Kleymann Methoden als Apparate 
verstanden werden, da sie »agentielle Schnitte [vollzögen].« (Ebd.) 

105 Vgl. Kleymann: Datendiffraktion. Die Debatte über solche Überwindungsversuche von metho- 
dologischen Differenzen, Dichotomien und gegensätzlichen Paradigmen im Kontext von Mixed- 
Methods-Ansätzen erinnern auffällig an die historisch-dualistischen Setzungen von »Denken und 
Sein«in formallogischen Ansätzen des 18. Jahrhunderts im Rahmen einer zweiwertigen Aristoteli- 
schen Logik (vgl. dazu Lucke: Schillers Ästhetische Briefe als Literatur, Kap. 2). Die damaligen Forma- 
lisierungsversuche von Erkenntnis, insbesondere bei der »Vereinigung von Gegensätzen« (Fichte), 
in frühen wissenschaftstheoretischen Abhandlungen der Moderne waren aber durch die Zweiwer- 
tigkeit der Ansätze bereits zum Scheitern verurteilt (vgl. G. Günther (1991): Idee und Grundriß einer 
nicht-Aristotelischen Logik. Die Idee und ihre philosophischen Voraussetzungen, Hamburg). 
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schränkung von Close und Distant Reading schlägt Thomas Weitin das Scalable Reading’ 
im Anschluss an Martin Müller vor, um Texte beispielsweise auf der Basis von Vektoren 
der häufigsten Wörter, die die Texte numerisch repräsentieren sollen, vergleichen zu 


107 


können, jedoch mit der Gefahr des »Verlusts von Kontext«.'”” »Kontextverknappung« 


sei aber auch ein Problem der traditionellen literaturwissenschaftlichen Close Reading 
Methode, die mit kontingenten Kontextualisierungen ohne Vergleichbarkeit operiere.'°® 
Die Integration von Unterschieden »zwischen manueller Einzeltext- und maschineller 


19% seien nicht zu unterschätzen. Evelyn Gius’ Komplexitätsmodell der 


Korpusanalyse« 
»Integration als eine Komplexitätsdimension von Erkenntnissen«"° stuft Grade der 
Komplexität zwischen Einfachheit und Komplexität von unterschiedlichen Phänome- 
nen ab, die »durch unterschiedliche Methoden adressiert werden«, welche »wiederum 
unterschiedliche (Teil-)Phanomene< produzieren können, die bei der Interpretation 
wieder integriert werden müssen." Der Grad der Komplexität des Phänomens bemesse 
sich dabei »an den zu operationalisierenden Einheiten«."* Der Forschungsgegenstand 
wiirde auf diese Weise zwar an Facettenreichtum gewinnen, aber ggfs. um den Preis 
(s)einer (hermeneutischen) »Ganzheit«."” Zu prüfen wäre bei Mixed Methods-Ansätzen 
daher, ob die Kombination von Methoden eine multiperspektivische Erfassung des 
gleichen Phanomens (mit woméglich unterschiedlichen Ergebnissen) bietet oder ob un- 
terschiedliche Phanomene dabei erst durch unterschiedliche Perspektiven produziert 
werden (kénnen).™ Eine transparente Herleitung von theoretischen Implikationen und 
Herkünften von Modellen, Methoden und Daten sowie ein reflektierter und (logisch) 
plausibilisierter Umgang mit Formalisierung und Operationalisierung (insbesondere 
des Theorieanteils) in geeignete Indikatoren könnte dieser Herausforderung in erhebli- 
chem Maße Rechnung tragen." 

Im Bereich von transdisziplinärer Zusammenarbeit werden Mixed-Methods-For- 
schungsdesigns verwendet, wobei Analysekategorien, Ergebnisse und Anforderungen 
wechselseitig perspektiviert werden. Hermeneutische Verfahren werden diesbezüglich 
mit datenbasierten Methoden und bereits bestehenden Algorithmen und techni- 
schen Lösungen der Informatik für die Textanalyse kombiniert. Es werden dabei die 
Heuristiken digitaler Modellierungen transdisziplinär eruiert, wie die hermeneuti- 
sche Validierung von digitalen Forschungsergebnissen und die Anforderungsanalyse 
bzw. -spezifikation, um zum einen der Formalisierung literaturwissenschaftlicher 


106 Weitin: Digitale Literaturgeschichte, S. 116. Vgl. auch Armaselu, F., Fickers, A. (Hg.) (2024): Zoom- 
land. Exploring Scale in Digital History and Humanities, Bd. 7 der Reihe Studies in Digital History 
and Hermeneutics, DeGruyter Oldenbourg. 

107 Vgl. Weitin: Digitale Literaturgeschichte, S. 116. 

108 Vgl. Weitin: Digitale Literaturgeschichte, S. 117. 

109 Weitin: Digitale Literaturgeschichte, S. 116. 

110 Kleymann: Datendiffraktion. Vgl. E. Gius (2019): Computationelle Textanalysen als fünfdimensio- 
nales Problem: Ein Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019), S. 1-20. 

111 Vgl. Kleymann: Datendiffraktion. 

112 Vgl. Kleymann: Datendiffraktion. 

113 Vgl. Kleymann: Datendiffraktion. 

114 Vgl. Schröter: Mixed Methods. 

115 Vgl. die Annotationen der Verfasserin zu Schröter: Mixed Methods. 
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Forschungskategorien und zum anderen den Anforderungen kulturwissenschaftlich 
orientierter literaturwissenschaftlicher Fragestellungen zu genügen." 

Bei der explorativen Datenanalyse (EDA) werden Daten, Texte und Korpora auf be- 
stimmte Auffälligkeiten (oder Trends) hin explorativ untersucht. Um der Gefahr spon- 
taner Theoriebildung und einer zu langen Phase der Exploration vorzubeugen - indem 
so lange exploriert wird, bis man die gewünschten Ergebnisse erhält - kann es sinnvoll 
sein, theoretisch-deduktive Verfahrensweisen (wie Hypothesenbildung) in die EDA mit- 
einzubeziehen. Visualisierungen können dazu genutzt werden, um sich einen Überblick 
über die Daten und eventuelle Fehler zu verschaffen, die etwas über die Daten »als Daten« 
aussagen. Bei der EDA wird häufig Clustering (z.B. K-Means-Clustering) eingesetzt, aber 
auch Topic Modeling, um z.B. etwaige Trends bei (Gesprachs-)Themen, Phänomenen, 
Genderaspekten oder auch Emotionen u.v.m. in bestimmten historischen Zeitabschnit- 
ten zu analysieren.”” 

Wichtig für transdisziplinäre Forschungsszenarien scheint uns dabei ein datensen- 
sibles und transparentes Vorgehen zu sein, bei dem es darauf ankommt, die Daten und 
ihre Modellierung stets im Blick zu behalten - woher sie kommen, wie sie zustande kom- 
men, - sprich: generiert werden und wofür sie stehen. 


3. Digitale Hermeneutik® und Anforderungsanalyse bzw. -spezifikation (Requirements Analy- 
sis) in transdisziplinären Ansätzen: 
Es wäre eine Art heuristisches Modell digitaler Hermeneutik zu entwickeln, das sowohl 
für die Geisteswissenschaften als auch für die Informatik operationalisierbar ist. Dabei 
geht es eben nicht, wie bereits erwähnt, darum, durch konstruktive Lektüren die Lücken 
Cgaps<) und weißen Flächen der (historischen) Bedeutung zu überbrücken, sondern um 
die Frage, welche hermeneutischen Verfahren und methodologischen Aspekte auf wel- 
che Weise konkret im digitalen oder transdisziplinären Forschungsprozess genutzt wer- 
den können. 

Für die Kompatibilität von hermeneutischen und quantitativ-digitalen Verfahren 
oder im Bereich von experimenteller Softwareentwicklung wird eine iterative Vorgehens- 
weise vorgeschlagen, die transdisziplinär anschlussfähig ist, und zwar sowohl im Sinne 


119 


eines erweiterten hermeneutischen Zirkels in den Geisteswissenschaften'”, als auch in die 


120 


Richtung von iterativen Verfahrensweisen'”° (wie z.B. dem iterativ erweiterten Wasser- 


116 Vgl. insbesondere im Beitrag von Femmer und Lucke in diesem Band. 

117 Vgl. dazu den Beitrag von L. Kraft im vorliegenden Band. 

118 Vgl. den Forschungsschwerpunkt FSP digitale_kultur auf der digitalen Hermeneutik an der FernUni- 
versität Hagen (https://www.fernuni-hagen.de/forschung/schwerpunkte/digitale-kultur) Vgl. zur 
digitalen Umsetzung hermeneutischer Verfahren auch die Projekte heureCLEA und CATMA. 

119 Vgl. Gius/Jacke: The Hermeneutic Profit of Annotation, S. 240. In einem hermeneutischen Prozess 
(oder Zirkel), so versteht Gadamer Heideggers Gedanken im Text Vom Zirkel des Verstehens, gehe 
es in der zirkulären Verstehensbewegung darum, theoriegeleitete Vorurteile, hartnäckige Theo- 
rien, Denkgewohnheiten oder populäre Urteile (er nennt diese »Volksbegriffe«) abzutragen und zu 
den Sachen selbst: zu kommen, nämlich anhand der »Ausarbeitung aus den Sachen selbst her das 
wissenschaftliche Thema zu sichern«. 

120 Vgl. dazu auch Femmer H., Mendez-Fernandez, D., Wagner, S., & Eder, S. (2017): Rapid quality as- 
surance with requirements smells. Journal of Systems and Software, 123, S. 190-213, S. 190. 
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fallmodell oder Spiralmodell nach Boehm 1986) der Informatik. Das bedeutet konkret: 
Zunächst werden (vorläufige) literaturwissenschaftliche Anforderungen an technische 
Lösungen skizziert (Anforderungsanalyse). Nach erfolgter (literaturwissenschaftlicher 
oder transdisziplinärer) Validierung von Ergebnissen und Evaluation der Anforde- 
rungen werden die Anforderungen spezifiziert.'” Ein iteratives Vorgehen wie bei der 
Anforderungsspezifikation kann den literaturwissenschaftlichen Analysekriterien eher 
gerecht werden bzw. diese gegebenenfalls noch erweitern. Aus solchen Arbeitsprozessen 
können sich auch veränderte literaturwissenschaftliche Fragestellungen ergeben. 

Eine weitere Integration von hermeneutischen Verfahren in den transdiszipli- 
nären Forschungsprozess ist die Interpretation und hermeneutische Validierung” von 
Forschungsergebnissen auf der Basis von literaturwissenschaftlichem Fach- und Kon- 
textwissen. 

Annotationen bieten als Methode beispielsweise eine direkte digitale Anwendung 
von hermeneutischen Verfahren, indem der Text beispielsweise mit semantischen Zu- 
satzinformationen angereichert wird.’ Die Implementierung von hermeneutischen 
Verfahrensweisen integriert das Tool CATMA, indem es verschiedene Annotations- 
kategorien anbietet wie »freie Annotation nach individuell definierten Kategorien«, 
»Mehrfachannotation einzelner Wörter und Passagen«, »überlappende Annotation« 
oder »widersprüchliche Annotation«.'”* 


Taxonomiebasierte Textarbeit, die top-down< und theorie- wie kategoriengeleitet ver- 
fährt, ist damit ebenso möglich wie die »bottom up« verfahrende und zirkuläre her- 
meneutische Forschung, die erst im Zuge der Exploration konkreter Texte ihre spezifi- 
schen Beschreibungsterme und -kategorien entwirft und präzisiert. CATMA kann dar- 
um für eine große Vielfalt an Forschungsansätzen genutzt werden. '” 


4. Die Reformulierung der eigenen kultur- und literaturwissenschaftlichen Fragestellung: Der 
Einsatz von digitalen Methoden kann eine Revision und Reformulierung der eigenen 
komplexen kultur- und literaturwissenschaftlichen Fragestellung, etwa in untergeord- 
nete Forschungsfragen, erfordern. 

Die Fragestellung sollte in geeignete unterscheidbare Indikatoren für die computa- 
tionelle Textanalyse operationalisiert werden. Nach ersten Ergebnissen aus einer (explo- 


121 Vgl. den transdisziplinären Beitrag von Femmer und Lucke im vorliegenden Band. 

122 Das Konzept der Reliabilität spielt in den humanities häufig eine untergeordnete Rolle, da diese 
nicht in erster Linie den Anspruch haben, immer gleiche Ergebnisse zu erzeugen, auch nicht zu 
unterschiedlichen Zeitpunkten, da Kultur im Wandel begriffen wird. 

123 Vgl.J. Horstmann, M. Seltmann (2023): Annotation. In: AG Digital Humanities Theorie des Verban- 
des Digital Humanities im deutschsprachigen Raum e.V. (Hg.): Begriffe der Digital Humanities. Ein 
diskursives Glossar (=Zeitschrift für digitale Geisteswissenschaften /Working Papers, 2). Wolfen- 
büttel 2023. 25.05.2023. HTML / XML / PDF. DOI: 10.17175/wp_2023_ 002 

124 https://fortext.net/tools/tools/catma »Mit der nahtlosen Integration der Funktionsmodule ©! un- 
terstützt CATMA die für die hermeneutische Textarbeit erforderliche iterative Arbeitsweise, indem 
beispielsweise erstellte Tagsets nach einer ersten Anwendungs-, Analyse- und Auswertungsphase 
problemlos mehrmals modifiziert und Annotationen überarbeitet werden können« (vgl. ebd.). 

125  https://fortext.net/tools/tools/catma. 
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rativen oder hypothesengetriebenen) Datenanalyse kann die Fragestellung ggfs. refor- 
muliert bzw. Anforderungen spezifiziert werden. 


5. Mögliche Arbeitsschritte für ein Mixed-Methods-Forschungsprojekt: 


e Phänomen entdecken bzw. erkennen im Close Reading Verfahren, bei der EDA (Ex- 
plorative Datenanalyse) oder durch eine Frage- oder Problemstellung in der aktuel- 
len Forschung 

e Operationalisierung einer literatur- oder kulturwissenschaftlichen Fragestellung, 
Ableitung von Hypothesen und Formalisierung des gedanklichen Ansatzes nach den 
Prinzipien der formalen Logik (und ggfs. Reflexion von eigenen Erwartungen und 
Annahmen), Anforderungsanalyse 

e Theoretische Reflexion des Mixed-Methods-Ansatzes, methodische und methodolo- 
gische Vorüberlegungen, Triangulation'** 

e Preprocessing (Download, Installation, technische Voraussetzungen, Einarbeitung 
in die technische und informatische Funktionsweise, Datenaufbereitung und -mo- 
dellierung) 

e Korpusbildung (Testkorpus erstellen, Auswahl der Daten, Texte gemeinfrei bzw. 
Open Source?) 

e Phänomene, Forschungsfragen auf das Testkorpus anwenden (z.B. anhand von Most 
Frequent Words (MFW), Keywords in Context (KWIC), Stoppwortlisten, Tokenisie- 
rung, Lemmatisierung, Part of Speech-Tagging (POS-Tagging), Distanzmaße wie in 
der Stilometrie, Parametereinstellungen) 

« Vorläufige Ergebnisse (Vergleichsdaten in der Forschung?) 

e Manuelles Review, Fachexpertise, hermeneutische Validierung, Evaluation, Anforde- 
rungsspezifikation 

« Ggfs. Korpuserweiterung (iteratives Vorgehen: wieder zurück zum Arbeitsschritt 
»Korpusbildung.) 

e Topic Modeling, NLP-basierte Verfahren, Annotationen, Clusterverfahren, Fine-Tu- 
ning von LLMs etc. 

e Visualisierung von Ergebnissen (Auffälligkeiten, Trends, Ausreißer, Bias-Effekte, 
Median oder Mittelwert?) 

e Hermeneutische Validierung, Fachexpertise, Kontextwissen 

e Grenzen und Möglichkeiten der angewendeten (kombinierten) Methoden (ggfs. aus 
transdisziplinärer Perspektive) 

« Anforderungsspezifikation, Weiterentwicklung von Anwendungen, Tools und Me- 
thoden 

e Weiterführende Fragestellungen (ggfs. Revision oder Splitten der ursprünglichen 
Fragestellung) 


126 Vgl. Schröter: Mixed Methods. 
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Zielsetzung des vorliegenden Bandes 


Im vorliegenden Band wird der Versuch unternommen, anhand von exemplarischen und 
experimentellen Anwendungen die inter- und transdisziplinären Potentiale und Mehr- 
werte der in den Dialog gebrachten Wissenschaften miteinander interagieren zu lassen, 
ohne dem Anspruch zu genügen, die methodologischen (und epistemologischen) Pro- 
bleme (vollständig) zu lösen oder zu überbrücken, aber auch ohne sie auf disziplinäre 
Einseitigkeiten reduzieren zu wollen. Entlang der differenten Zugänge fachspezifischer 
und transdisziplinärer Perspektiven werden praktikable Vorgehensweisen, digitale Me- 
thoden, Datenmodellierungen, gemeinsame Schnittmengen und unterschiedliche Fra- 
gestellungen vorgestellt.” 

Es geht in den hier versammelten Beiträgen um die Frage, wie die (vermeintliche) 
Disparität der Methoden beider Fachdisziplinen und die Pluralität ihrer komplementä- 
ren, aber auch überlappenden Verfahrenslogiken - auf der einen Seite frage- und theo- 
riebasiert (Literaturwissenschaft), auf der anderen Seite zahlen- und datenbasiert (In- 
formatik) - für den erkenntnisorientierten Forschungsprozess optimal genutzt werden 
können. 

Dabei spielen die Aspekte Evaluation von Methoden und Tools eine wichtige Rolle. 
Die Software muss den Aufgaben in der Forschung gerecht werden, benutzerfreund- 
lich und nachhaltig sein, d.h. u.a. einen nachhaltigen technischen Support beinhalten. '*® 
Der Forschungsprozess wird häufig direkt oder indirekt vom Software-Tool gesteuert.'”? 
Fehlerhafte und nicht passende Algorithmen, komplizierte Datenimports ohne Prüfung 
der Datenqualität, unvollständige und problematische Ausgaben, nichttransparente zu- 
grunde liegende rechnerische Verfahren oder nicht sorgfältig ausgearbeitete Dokumen- 
tationen können den Forschungsprozess auf äußerst ungünstige Weise beeinflussen. 
Eine angemessene Kritik von Forschungen muss diese Aufbereitung und Auswertung 
durch Forschungssoftware einbeziehen, nachvollziehen und kritisch reflektieren kön- 
nen. 


Die Beiträge in diesem Band 


In den ersten beiden Beiträgen werden digitale und computationelle Methoden und 
Tools in Bezug auf literaturwissenschaftliche Fragestellungen exemplarisch angewen- 
det, reflektiert und evaluiert: Bei der Anwendung und methodischen Reflexion des Topic 


127 Das Projekt ist aus dem Kontext eines interdisziplinären Netzwerks aus Literaturwissenschaft- 
ler:innen und Informatiker:innen verschiedener Hochschulen in NRW hervorgegangen. Eine Kurz- 
beschreibung des Projekts findet sich unter Digital Humanities Projekte an der Ruhr-Universität 
Bochum im Rahmen des Netzwerks DH RUB (https://dh-netzwerk.blogs.ruhr-uni-bochum.de/pro 
jekte/, 7.11.2023). 

128 Vgl. den Beitrag von H. Johannes im vorliegenden Band. 

129 Vgl. Katerbow, M., Feulner, G. (2018): Handreichung zum Umgang mit Forschungssoftware. Zen- 
odo, 27.2.2018. https://doi.org/10.5281/zenodo.1172970 und Schmidt, S. C., Marwick, B. (2020): 
Tool-Driven Revolutions in Archaeological Science. In: Journal of Computer Applications in Archae- 
ology 3: 18-32. https://doi.org/10.5334/jcaa.29. 
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Modeling bei Kafkas Texten (Laura Kraft) oder über den heuristischen Wert von NLP- 
basierten Verfahren in der computationellen Literaturtextanalyse (Henning Femmer/ 
Alexa Lucke). 

Laura Kraft (Literaturwissenschaft) stellt in ihrem Werkstattbericht »Topic Modeling 
am Beispiel von Franz Kafka: Eine Arbeitsskizze« die Methode Topic Modeling vor. Am 
Beispiel von Franz Kafka als Zeitungsleser während des Ersten Weltkriegs erörtert sie 
die Chancen und Grenzen der quantitativen Analysemethode für die Bearbeitung lite- 
raturwissenschaftlicher Fragestellungen. Topic Modeling erweist sich dabei als vielver- 
sprechendes Distant Reading-Verfahren. Als Methode der quantitativen Bedeutungsana- 
lyse soll Topic Modeling latente semantische Strukturen sichtbar machen können, die 
eine Einzeltextanalyse bisher nicht erreichen konnte. Anhand der Fokussierung auf die 
Aspekte Preprocessing, Korpus-Kenntnis und Code-Kompetenz erläutert sie die Voraus- 
setzungen für einen erfolgreichen Einsatz von Topic Modeling, um auch eine klassische 
literaturwissenschaftliche Fragestellung im Rahmen einer hermeneutischen, intertex- 
tuellen und diskursanalytischen Betrachtung angemessen bearbeiten zu können. Dabei 
reflektiert sie auch die Rolle der Literaturwissenschaft und ihrer Methoden im Zeitalter 
der Digitalisierung. Der experimentelle Beitrag zeigt dabei, warum es für die Forschung 
interessant sein kann, wenn man mit Hilfe eines Algorithmus bei Franz Kafka zwischen 
den Zeilen lesen will. 

Im gemeinsamen Beitrag »Über den Nutzen des Natural Language Processing in der 
computationellen Analyse literarischer Texte des Naturalismus und der (literarischen) 
Moderne« von Henning Femmer (Informatik) und Alexa Lucke (Literaturwissenschaft) 
wird der heuristische Nutzen des Natural Language Processing für die computationelle 
Analyse von literarischen Texten transdisziplinär, aus der Sicht von Literaturwis- 


senschaft und Informatik, eruiert und diskutiert.”° 


Entlang einiger exemplarischer 
literaturwissenschaftlicher Frage- und Problemstellungen werden ausgewählte litera- 
rische Texte, die im traditionellen Literaturkanon entweder dem Naturalismus oder 
der (literarischen) Moderne zugeordnet werden, anhand von sprachlichen Vorkomm- 
nissen (Findings), die für verschiedene literaturwissenschaftliche Kategorien stehen 
können, analysiert. Dazu wird ein NLP-basiertes Tool genutzt, dessen originäre Funk- 
tion die Überprüfung der Qualität von Anforderungen an ein Softwareprodukt ist 
(Anforderungsanalyse/Requirements Analysis). Das Tool ermittelt mit Hilfe von einstellba- 
ren Filtermechanismen sogenannte Findings im Text, wie z.B. Imprecise Phrases, Negative 
Words oder Vague Pronouns und basiert auftypischen Technologien des NLP wie Parsing, 
Lemmatizing und POS-Tagging. Mit dem Tool soll empirisch überprüft werden, ob anhand 
der Häufigkeiten solcher sprachlichen Vorkommnisse in einem begrenzten Korpus von 
naturalistischen und modernen Texten tatsächlich eindeutige Epochenzugehörigkeiten 
abgeleitet werden können. 

Die beiden daran anschließenden Beiträge nähern sich zum einen aus informati- 
scher Perspektive, zum anderen aus literaturwissenschaftlicher Perspektive den KI-ge- 
nerierten Produktionen im Bereich von Kunst und Literatur. Unter einer ähnlichen Fra- 


130 Als multivariate Verfahren aus dem Bereich des NLP (Natural Language Processing) können meh- 
rere Einflussfaktoren bei der computationellen Textanalyse gleichzeitig berücksichtigen werden, 
was der Komplexität von literarischen Texten entgegenkommt. 
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gestellung kommen beide Beiträge aber zu verschiedenen plausiblen Schlüssen unter ih- 
rer jeweiligen fachspezifischen Perspektive. 

Im ersten Beitrag »Computergenerierter Zufall als kreatives Moment in Malerei 
und Literatur: Potentiale und Grenzen von Machine-Learning-Modellen am Beispiel von 
GPT« untersucht Andreas de Vries (Informatik) den Einfluss computergenerierten Zu- 
falls auf kreative Prozesse. Als paradigmatisches Beispiel dafür wird eine Werktechnik 
Gerhard Richters betrachtet, die darin besteht, Farbfolgen quadratischer Raster durch 
Zufallsgeneratoren berechnen zu lassen. Des Weiteren werden die Prinzipien der gän- 
gigen Sprachmodelle der Computerlinguistik vorgestellt, die den Zufall in Form von 
Wahrscheinlichkeitsverteilungen zur Generierung von Texten verwenden. In diesem 
Zusammenhang bietet der Beitrag außerdem einen Einblick in die informatischen 
Grundlagen des Natural Language Processing und des Machine Learnings. Das öffentlich 
verfügbare Sprachmodell ChatGPT wird anhand konkreter Dialogbeispiele untersucht 
und daraus die Schlussfolgerung belegt, dass sein aktuelles Design einerseits das Erken- 
nen oder Vermeiden logischer Inkonsistenzen grundsätzlich nicht ermöglicht, die Rolle 
des Zufalls allerdings zur Erzeugung neuartiger Texte oder nie dagewesener Aussagen 
führen kann. Allerdings wäre wie bei Richters Werktechnik der eigentlich kreative 
Prozess die Auswahl aus zufälligen Artefakten, nicht der Zufall. 

Der Frage der Kreativität von KI widmet sich auch Denis Stevanovic (Literatur- 
wissenschaft) in seinem Artikel »Die Kunst im Zeitalter der künstlichen Intelligenz: 
Walter Benjamins Kunsttheorie im 21. Jahrhundert«. Modelle künstlicher Intelligenz 
generieren Texte, Bilder, Musik und weitere Formen, die gemeinhin als Kunst aufgefasst 
werden können. Walter Benjamin hat einst die Frage nach dem Kunstwerk im Zeitalter 
seiner technischen Reproduzierbarkeit gestellt. Aufbauend auf Benjamins Ideen un- 
tersucht diese Studie die Spezifik von KI-generierten Kunstwerken und deren Position 
im Bereich der künstlerischen Produktion. Indem sie die einzigartigen Eigenschaften 
von KI-Kreationen berücksichtigt, wie ihre algorithmischen Ursprünge, maschinelles 
Lernen und das Zusammenspiel zwischen menschlicher Kreativität und computerge- 
stützten Systemen, zielen diese Überlegungen darauf ab zu bewerten, ob KI-generierte 
Werke als legitime Formen künstlerischen Ausdrucks betrachtet werden können. 

Auch zwei weitere Beiträge widmen sich aus der Perspektive der Literaturwissen- 
schaft weiter der Frage nach der Bedeutung von Maschinen und maschinellen Prozessen 
im Kontext von Literatur und Kunst. 

Der Beitrag »Algorithmizität, Autorschaft und Paratext in generativer Kunst und Li- 
teratur« von Alexa Lucke (Literaturwissenschaft) fragt nach der Konstitution von Autor- 
schaft und der Bedeutung von Paratexten bei KI-generierten Kunst- und Literaturpro- 
duktionen. Der ästhetische Fokus der dargestellten digitalen künstlerischen und lite- 
rarischen Experimente verlagert sich auf die zugrundeliegenden Algorithmen und ma- 
schinellen Prozesse, nicht auf den damit generierten Output. Die begleitenden ästhe- 
tisch-technischen Kommentare explizieren, implizieren und mystifizieren dabei die al- 
gorithmischen Praktiken als Ausdruck von Reorganisationen von historischem Text-, 
Bild- oder Meta-Datenmaterial bzw. von De- und Rekontextualisierungen von historisch 
geprägten Wissensdiskursen. Paratexte und die Verhandlungen von Autorschaft zwi- 
schen Mensch und Maschine werden dabei häufig für ökonomische oder soziale Platzie- 
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rungspraktiken in den digitalen (Teil-)Offentlichkeiten des Kunst- und Literaturmarkts 
genutzt. 

Judith Schönhoffs Beitrag (Literaturwissenschaft/Komparatistik) »Verwenden Men- 
schen und Automaten die gleiche Sprache? Literarische Fiktionen künstlichen Mensch- 
seins« widmet sich unter einer komparatistischen Perspektive der Frage nach »der: dif- 
ferentia von Mensch und Maschine bzw. Mensch und Automat in der westlich-europäi- 
schen Kulturgeschichte und Literatur seit der Antike. Schon die technisch fortgeschrit- 
tenen antiken Kulturen versuchten etwas zu erschaffen, dass das menschliche oder auch 
tierische Leben imitiert: die Automaten. Waren die realen mechanischen Geschöpfe zu 
dieser Zeit noch eindeutig als nicht lebendig zu erkennen, wurde dieses Manko in der Li- 
teraturjedoch ausgeglichen und die Maschinen, als handelnde und vor allem sprechende 
Wesen, jenseits ihrer technischen Realisierbarkeit beschrieben. Sprache war dann auch 
bis zum 19. Jahrhundert das entscheidende Merkmal, das die Menschenähnlichkeit der 
Maschine markiert. Im vorliegenden Aufsatz soll eine Übersicht über die Entwicklungs- 
geschichte des Automaten-Motivs gegeben werden, wobei die Frage nach der Differenz 
und Unterscheidbarkeit vom Menschen im Mittelpunkt steht. 

Den Schluss bilden zwei Beiträge aus informatischer Sicht: Der Beitrag von Her- 
mann Johannes (Informatik) gibt einen einführenden Überblick über die verschiedenen 
Bereiche der Digital Humanities, digitale Methoden sowie deren technische Umsetzun- 
gen aus Sicht der Informatik. Dabei werden die Methoden kurz vorgestellt und einige 
Tools in der digitalen Literaturwissenschaft gemäß ihres jeweiligen technischen Stands, 
Supports und Anwendungszwecks rezensiert."”" 

Jennifer Krieger (Informatik) gibt nach einer einführenden Definition der Informa- 
tik als Wissenschaft und einer kurzen Vorstellung ihrer Gebiete einen Überblick über 
die wichtigsten Konferenz- und Journalformate in der Informatik sowie einen Einblick 
in den standardisierten Aufbau von wissenschaftlichen Arbeiten.” 

Neben den fachspezifischen und transdisziplinären Perspektiven und der span- 
nungsreichen Verschränkung von digitalen und klassischen Methoden, sich einander 
annähernden Gegenständen und teilweise unterschiedlich verwendeten Begriffen tref- 
fen hier zwei höchst differente Wissenschaftskulturen aufeinander, die das Buchprojekt 
in einem wechselnden Neben- und produktiven Miteinander exemplarischer Studien 
dokumentieren möchte. 


131 Im Anschluss an Homburg, T. u.a. (2020): Diskussionsbeitrag — Handreichung zur Rezension von 
Forschungssoftware in den Altertumswissenschaften/Impulse, URL: https://research-squirrel-eng 
ineers.github.io/Impuls_SoftwareRezensionen_DGUF/Draft.html [Zugriff: 09.08.2023] 

132 Im Anhang des Beitrags von H. Johannes befindet sich noch ein Beispiel mit Pseudocode und Pro- 
gramm zur Primzahlerkennung, außerdem sind im Downloadbereich des Bands (https://github.co 
m/LuckeJohannes/Literaturwissenschaft_Informatik) weitere Analysen (mit Stilometrie, K-means 
Clustering), ein Glossar sowie mögliche Inhalte eines DH-Studiengangs aus Sicht eines Informati- 
kers. 
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Topic Modeling am Beispiel von Franz Kafka 
Eine Arbeitsskizze 


Laura Kraft (Literaturwissenschaft) 


Franz Kafka ist einer der meistbeachteten Autoren in der literaturwissenschaftlichen 
Forschung. Es gibt unzählige Forschungsarbeiten zu seinem literarischen Werk, zu des- 
sen Rezeption, seinem Leben, Leiden, Schreiben. Eine einfache Google-Anfrage zu Kaf- 
ka ergibt 140 Millionen Treffer in 0,28 Sekunden, spezifiziert man das mit »Franz Kafka«, 
sind es immerhin noch 15,3 Millionen Ergebnisse. Doch noch immer gibt uns der Autor, 
der vor fast 100 Jahren starb, Rätsel wie kein anderer auf, sorgt er heute noch für Schlag- 
zeilen und avancierte jüngst sogar zum Tik-Tok-Star. Dabei wollte er seinen schriftstel- 
lerischen Nachlass am liebsten verbrannt sehen und es ist allein dem Ungehorsam sei- 
nes Freundes und Förderers Max Brodt zu verdanken, dass Kafka heute zum Kanon der 
Weltliteratur zählt und sein Name gar ein eigenes Adjektiv geprägt hat — kafkaesk. 
Vermutlich ist es Kafka auf besondere und vielleicht ironische Weise angemessen, 
ihn mit quantitativen Analysemethode zu untersuchen, hatte er doch neben seinem all- 
nächtlichen Schriftstellerleben im Alltag als Angestellter und Jurist der Arbeiter-Unfall- 
Versicherungsanstalt für das Königreich Böhmen tagtäglich mit Statistiken und Zahlen 
zu tun. In seinem beruflichen Kontext als Jurist verfasste er im Büro etliche amtliche 
Schriften, in denen er mitunter durch die Verarbeitung jener Statistiken und Zahlen ei- 
ner modernen Verwaltungsbehörde Ausdruck verlieh." Mit seinem Brotberuf haderte er 
aber bekanntermaßen zeit seines Lebens »weil er meinem einzigen Verlangen und mei- 
nem einzigen Beruf das ist der Litteratur widerspricht«”. Kafkas »schreckliches Doppel- 
leben zeigt sich aber nicht nur in der Diskrepanz zwischen der Amtstätigkeit im »Bu- 
reau«, wo er die für ihn ganz und gar sinnlose Amtstätigkeit verrichten musste, und dem 


1 Zu Kafka und die Statistik empfiehlt sich auch: Wolf, Burkhardt (2006): Die Nacht des Bürokraten. 
Franz Kafkas statistische Schreibweise. In: Deutsche Vierteljahrsschrift für Literaturwissenschaft 
und Geistesgeschichte, 80. 

2 Kafka, F. (1990): Tagebucheintrag vom 21.8.1913. In: Ders.: Tagebücher. Schriften Tagebücher Briefe, 
Kritische Ausgabe, hg. v. H.-G. Koch, M. Müller & M. Pasley, Frankfurt a.M., S. 578f. 

3 Kafka, F. (1990): Tagebucheintrag vom 19.2.1911 In: Ders.: Tagebücher. Schriften Tagebücher Briefe, 
Kritische Ausgabe, hg. v. H.-G. Koch, M. Müller & M. Pasley, Frankfurt a.M., S. 29. 
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nächtlichen literarischen Schreiben. Der Erste Weltkrieg spielt mindestens eine genau- 
so entscheidende Rolle für seinen Schaffensprozess wie auch die Identitätsproblematik 
im transkulturellen Raum als deutschsprachiger Jude in Prag.* Kafka als Autor im Kon- 
text des Ersten Weltkriegs zu betrachten, ist in der Forschung bisher weitestgehend ver- 
nachlässigt worden, herrschte dort bislang eine Lesart vor, die ihn mehr als den »ewigen 
Sohn« interpretierte, denn als einen Autor, der den Krieg diskursivierte. Dabei sind die 
meisten seiner literarischen Texte in eben jener Zeit entstanden. 

Der Tagebucheintrag vom 2. August 1914 — »Deutschland hat Rußland den Krieg er- 
klärt. - Nachmittag Schwimmschule«° — wird gern als Beleg für Franz Kafkas vermeint- 
liches Desinteresse am politischen Diskurs seiner Zeit und vor allem am Ersten Welt- 
krieg herangezogen. Erst in der neueren Forschung gibt es Ansätze, dieses vernachläs- 
sigte Themenfeld zu erschließen.° Insbesondere der Begriff »Geopolitik«, der während 
des Ersten Weltkrieges Hochkonjunktur hatte, tauchte in der Forschung im Zusammen- 
hang mit Kafka bisher nicht auf. Niels Werber begann mit einem Aufsatz 2017 erstmals 
dieses Thema zu erschließen und stellte dort exemplarisch Bezüge zwischen Kafkas lite- 
rarischen Texten und Zeitungsartikeln aus dem Ersten Weltkrieg her unter besonderer 
Berücksichtigung des geopolitischen Diskurses.’ 

In der Kafka-Forschung fehlt nach wie vor eine umfassende Betrachtung Franz Kaf- 
kas als Zeitungsleser und dessen Einbettung und Operationalisierung des Zeitungsme- 
diums in den Schreibprozess. Im Rahmen eines umfangreicheren Projektes sollen des- 
halb systematisch (geo)politische Semantiken in Kafkas Erzählungen aus dem Ersten 
Weltkrieg herausgearbeitet und untersucht werden, inwiefern der (geo)politische Dis- 
kurs und vor allem die Zeitungsberichterstattung für das Schreiben Kafkas von Bedeu- 
tung waren.® Kafka als interessierter Zeitungsleser (und Abonnent des Prager Tagblatts) 


4 Vgl. hierzu auch Deleuze, G./Guattari, F. (1976): Kafka. Für eine kleine Literatur. Frankfurt a.M.: 
Suhrkamp Verlag (8. Auflage, 2012) sowie Jeon, Yoo Jung (2017): Zur Dynamik von Differenz und 
Minoritat. Das Politische und Ethische der Minoritatsliteratur im besonderen Hinblick auf Franz 
Kafka und Emine Sevgi Ozdamar. Würzburg: Königshausen und Neumann. 

5 Kafka, F. (1990): Tagebucheintrag vom 2.8.1914 In: Ders.: Tagebiicher. Schriften Tagebticher, Kriti- 
sche Ausgabe, hrg. V. Hans-Gerd Koch, Michael Miller & Malcolm Pasley, Frankfurt a.M., S. 543. 

6 Besonders zu erwahnen sind hier: — Engel, M./Robertson, R. (Hg.) (2012): Kafka, Prag und der Ers- 
te Weltkrieg, Würzburg: Königshausen und Neumann. - Anz, T. (1996): Kafka, der Krieg und das 
größte Theater der Welt. In: Neue Rundschau, Nr. 3, S. 131-143. — Wagner, B. (2009): Kafkas Poetik 
des Unfalls. In: Kassung, C. (Hg.): Die Unordnung der Dinge: Eine Wissens- und Mediengeschichte 
des Unfalls. Bielefeld: transcript, S. 421-254. — Werber, N. (2017): Kafkas Geopolitik. 1917 — Schrei- 
ben am »Zeitungsrand der Weltgeschichte«. Neue Rundschau, 128, S. 209-227 — Kittler, W. (1990): 
Grabenkrieg- Nervenkrieg-Medienkrieg. Franz Kafka und der I. Weltkrieg. In: Hörisch, J./Wetzel, 
M. (Hg.): Armaturen der Sinne. Literarische und technische Medien 1870-1920. München: Fink, 
S. 289-309. — Birgfeld, J. (2012): Der Erste Weltkrieg im Prager Tagblatt: Zur Präsenz des Krieges 
als Kommunikationsereignis im Umfeld Kafkas. In: Engel, M./Robertson, R. (Hg.): Kafka, Prag und 
der Erste Weltkrieg, Würzburg: Königshausen und Neumann, S. 19-35.— Neumann, B. (2014): Franz 
Kafka und der Große Krieg: Eine kulturhistorische Chronik seines Schreibens. Würzburg: Königs- 
hausen & Neumann. 

Vgl. Werber: Kafkas Geopolitik. 
Es handelt sich bei dem vorliegenden Beitrag um eine Auskopplung aus dem Dissertationsprojekt 
und dient vor allem der Reflexion methodologischer Herausforderungen. 


Laura Kraft: Topic Modeling am Beispiel von Franz Kafka 


konnte die Ereignisse um den Ersten Weltkrieg und den politischen Diskurs mitverfol- 
gen und hat diese in seinen Tagebucheinträgen und Briefen kommentiert. Die Auswir- 
kungen des Krieges auf Kafkas Leben und vor allem auf sein literarisches Schaffen lassen 
sich anhand vieler Briefe und Tagebucheinträge nachweisen. Kafka verhandelt den Krieg 
in seinen literarischen Texten allerdings nicht explizit, sondern indirekt durch Verfah- 
rensweisen der Verschiebung, Verratselung und Verdichtung.” Die quantitative Analyse- 
methode »Topic Modeling« ist hierbei eine vielversprechende digitale Methode, um ver- 
borgene semantische Strukturen offenzulegen und eignet sich besonders für die Analyse 
literarischer Texte in einem mittelgroßen Korpus.'° Das Korpus für die Analyse besteht 
aus Kafkas Erzählungen aus der Zeit des Ersten Weltkriegs, seinen Tagebüchern und 
Briefen sowie Zeitungsausgaben vom Prager Tagblatt (1914-1918). Anhand dessen wird 
untersucht, ob es intertextuelle Bezüge zwischen den Zeitungen, die Kafka wohl gelesen 
hat, und seinen Erzählungen gibt und wie sich die literarischen Texte vor dem Hinter- 
grund dieser organisieren. Darüber hinaus soll der Schreibprozess und Kafkas poetolo- 
gische Verfahrensweisen in den Blick genommen werden. 

So viel zum Themenfeld bzw. Desiderat in der Kafka-Forschung, das seitens der 
Verfasserin im Rahmen eines größeren Projektes bearbeitet wird. Der Fokus soll in dem 
vorliegenden Beitrag auf der methodologischen Erörterung der quantitativen Analyse- 
methode Topic Modeling liegen und die Chancen und Grenzen von Topic Modeling in 
Hinblick auf literaturwissenschaftliche Fragestellungen und dem hier beschriebenen 
Forschungsgegenstand darlegen. Dabei ist dieser Beitrag nicht als Sentenz einer ab- 
geschlossenen Forschungsarbeit zu verstehen, sondern weist in diesem Stadium noch 
einen experimentellen Charakter auf. Vielmehr will dieser Beitrag aufzeigen, warum 
es für die Forschung interessant sein kann, wenn man mit Hilfe eines Algorithmus bei 
Franz Kafka zwischen den Zeilen lesen will. 


Kafkas Schreibweise im Krieg 


Kafka, der die Welt und das Leben schreibend verwand, »[d]a ich nichts anderes bin als 
Litteratur und nichts anderes sein kann und will«”, hatte in den rund 28 Jahren literari- 
scher Tätigkeit, von der rund 22 Jahre in Form von Texten überliefert sind, Phasen hoher 
literarischer Produktivität, die sich mit ruhigen Phasen und nahezu versiegender Tätig- 
keit abwechselten. Die Zeit während des Ersten Weltkriegs ist ausgerechnet die Phase 
seiner höchsten literarischen Produktivität. Zumindest entstehen dort die meisten Er- 


9 Vgl. hierzu auch Kilcher, A. (2015): Politik und Parabolik. Kafkas Texturen des Krieges. In: Shahar, G. 
(Hg.): Texturen des Krieges. Körper, Schrift und der Erste Weltkrieg. Göttingen: Wallstein Verlag, 
S. 223-243. 

10 Vgl. Weitin, T. (2017): Scalable Reading. In: LiLi. Zeitschrift für Literaturwissenschaft und Linguistik. 
[Online] 47 (1), 1-6. Available from: https: //link.springer.com/article/10.1007/541244-017-0048-4 

11 Kafka, Franz: Tagebucheintrag vom 21.8.1913 In: Ders.: Tagebücher. Schriften Tagebücher, Kritische 
Ausgabe, hrg. v. Hans-Gerd Koch, Michael Müller & Malcolm Pasley, Frankfurt a.M. 1990, S. 579. 
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zahlungen.” Das lässt sich auch damit erklären, dass es gerade die widrigen Umstän- 
de zu sein scheinen, die Kafka erst das Schreiben ermöglichen, wobei es gleichermaßen 
eben jene sind, die ihn davon abzuhalten drohen.” Die literarische Schaffenszeit wäh- 
rend des Krieges lässt sich in drei Produktionsphasen einteilen, deren Beginn und En- 
de charakterisiert ist von Schreibanlässen, privaten Ereignissen und Veränderungen des 
Schreibortes oder -mediums.'* Zu erwähnen sind hier auch die Tagebücher und Brie- 
fe, die in untrennbarem Zusammenhang zum literarischen Schaffensprozess stehen. So 
weisen die Tagebücher mitunter einen Notiz- und Werkstattcharakter auf und bilden 
einen teils fließenden Übergang von biografischer Dokumentation zu fiktionalisierten 
Textentwürfen. Dies liegt nicht zuletzt in der (hybriden) Verwendung des Schreibmedi- 
ums, welches in der Regel aus Heften im Quart- und Oktavformat bestand - die Begren- 
zung des Textumfangs durch das Heft tat sein Übriges dazu. 

Die Differenzierung von Textsorten ist hier also kaum möglich. Dies wird umso deut- 
licher, stellt man konsequent den Schreibprozess ins Zentrum der Betrachtung: Kafkas 
Werk beschreibt ein »Spannungsfeld«*. Es ist »zu großen Teilen an der Schwelle zwi- 
schen dem Geschriebenen und dem Schreiben angesiedelt, es liegt zwischen Vollendung 
und Fertigstellung einerseits und Fragment und Verwerfung andererseits, zwischen Ver- 
öffentlichung und Schreibprozess.«' Somit eröffnet sich eine komplexe Fragestellung 
nach Kafkas Schreibweise im Krieg. Die Ungewissheit darüber, ob »das im Text behan- 
delte Motiv (Signifikant) auch dessen Thema (Signifikat)«” sei, oder es sich um einen »re- 
lativ beliebige[n] Produktionsanlass, der im Schreibprozess metonymisch auf eine viel 
allgemeinere oder sogar metaphorisch auf eine ganze andere Bedeutungsebene überführt 
wird«’® handele, identifizieren Engel und Robertson als »Grundproblem der Kafka-Deu- 
tung«.” Laut Kilcher ließe sich Kafkas methodische Verfahrensweise »zugleich als Arbeit 
der Transposition und der Kondensation verstehen, die die fokussierte Direktheit in eine 
allgemeine Indirektheit transferiert und dabei das Angesprochene verbirgt und verrät- 
selt.«”° In Kafkas literarischen Texten ist der Krieg kaum inhaltlich greifbar, bestenfalls 
metaphorisch vermittelt. Die beschriebene Deutungsproblematik könne man »[...] um- 
gehen, wenn man [...] nur nach im weitesten Sinne kriegsbezogenen Diskurselementen 
sucht«,” so schlussfolgern Engel und Robertson. 


12 Zur Unterteilung von Kafkas Œuvre in Produktion- und Werkphasen vgl. Engel, Manfred (2010): 
Drei Werkphasen. In: Ders./Auerochs, B. (Hg.): Kafka. Handbuch. Leben - Werk — Wirkung. Stutt- 
gart, Weimar: S. 88-90. 

13 Vgl. dazu auch: Jahraus, O. (2006): Kafka. Leben, Schreiben, Machtapparate. Stuttgart: Reclam, 
S. 131ff. 

14 Vgl. Engel: Drei Werkphasen. 

15 Vgl. dazu auch: Kittler, W./Neumann, G. (1990): Kafkas »Drucke zu Lebzeiten«. Editorische Technik 
und hermeneutische Entscheidung. In: Kittler, W./Neumann, G. (Hg.): Franz Kafka. Schriftverkehr. 
Freiburg i.Br., S. 32. 

16 Vgl. dazu auch: Jahraus: Kafka, S. 38. 

17 Engel, M./Robertson, R. (2012): Vorwort/Preface. In: Engel, M./Robertson, R. (Hg.): Kafka, Prag und 
der Erste Weltkrieg, Würzburg: Königshausen und Neumann, S. 14. 

18 Ebd. 

19 Ebd. 

20 Kilcher: Politik und Parabolik, S. 225. 

21 Engel/Robertson: Vorwort/Preface, S. 14. 


Laura Kraft: Topic Modeling am Beispiel von Franz Kafka 
Kafka als Zeitungsleser 


Der Presse kommt als bedeutsames Kommunikationsmedium während des Ersten Welt- 
krieges eine exponierte Rolle zu und die Entwicklung der Zeitung hin zum Medium der 
Massenkommunikation im 19. Jahrhundert ist in der Forschung gut untersucht.” Wie 
intensiv Kafka während des Ersten Weltkrieges Zeitungen konsumiert oder welche Aus- 
gaben er wann gelesen hat, ist nicht detailliert überliefert. Dass er aber ein regelmäßiger 
Zeitungskonsument und -abonnent war, lässt sich zuverlässig durch Selbstaussagen be- 
legen. So erwähnt er u.a. in einem Brief an Felice Bauer 1912 seine Lektüregewohnheiten: 


Übrigens lese ich selbst nur das Prager Tagblatt und dieses sehr flüchtig, und an Zeit- 
schriften die Neue Rundschau und dann noch »Palästina«, das mir jedoch nicht mehr 
zugeschickt wird, trotzdem ich noch immer Abonnent bin.?? 


Kafka hatte aber nicht nur Zeitungen und Zeitschriften abonniert - auch seine eigenen 
literarischen Texte wurden teilweise in eben jenen Zeitungen und Zeitschriften abge- 
druckt. So findet sich z.B. Ein Traum gleich auf der ersten Seite der Beilage zur Ausgabe 
des Prager Tagblatts vom 6. Januar 1917. Dass es einen nachvollziehbaren Bezug zwischen 
Kafkas literarischen Texten während des Krieges und dem geopolitischen Diskurs in der 
Tagespresse gibt, wurde in der Forschung wie erwähnt bereits exemplarisch dargelegt.” 
Welchen Einfluss die Presseberichterstattung u.a. auf die Genese von Kafkas Ein Bericht 
fir eine Akademie hatte, lässt sich anhand der guten Quellenlage recht zuverlässig herlei- 
ten.” Hartmut Binder wies dies detailliert nach, indem er auf intertextuelle Bezüge zu 
u.a. E.T.A Hoffmann aufmerksam machte, insbesondere aber auch auf Diskurse in der 
deutschsprachigen Prager Presse, die die Zurschaustellung und Dressur von Menschen- 
affen thematisierten sowie vermehrt für Zirkus und Variete warben. Nicht nur anhand 
des Kontextes, sondern auch der Erzählstruktur zeichnet er minutiös nach, wer »Rotpe- 
ters Ahnen«”® in Kafkas Bericht für eine Akademie waren. 

Diese Diskurselemente helfen, um Schreibanlässe zu identifizieren und die Bedeu- 
tung der Briefe und Tagebücher für Kafkas Schaffensprozess unter besonderer Berück- 
sichtigung der Referenzialität in den Blick zu nehmen. Die evidenten Zeitungsbezüge 
allein erklären jedoch noch nicht, wie Kafka eben diese produktiv macht und operatio- 
nalisiert. Einen Hinweis auf eine Verfahrenstechnik gibt Franz Kafka wiederum selbst: 


[...] Nun habe ich schon längst den Plan gehabt und nur aus Nachlässigkeit ihn im- 
mer wieder auszuführen unterlassen, verschiedene Zeitungsnachrichten, die mir aus 


22 Zu erwähnen sei hier exemplarisch: Wilke, J. (2000): Grundzüge der Medien- und Kommunikati- 
onsgeschichte. Von den Anfängen bis ins 20. Jahrhundert, Köln/Weimar/Wien: Böhlau Verlag, 2. 
durchgesehene und ergänzte Auflage 2008, und auch Wilke, J. (2011): Von der frühen Zeitung zur 
Medialisierung. Gesammelte Studien Il. Bremen: [edition lumière]. 

23 Kafka, F. (1999): Brief an Felice Bauer vom 24.11.1912 In: Ders.: Briefe 1900-1912. Schriften Tagebü- 
cher Briefe, Kritische Ausgabe, hg. v. H.-G. Koch, Frankfurt a.M., S. 261. 

24 Vgl. Werber: Kafkas Geopolitik. 

25 Vgl. Binder, H. (1983): Kafka. Der Schaffensprozess. Frankfurt a.M., S. 271-305. 

26 Vgl. ebd. 


39 


40 


Literaturwissenschaft und Informatik 


irgendeinem Grunde überraschend waren, mir nahegiengen und mir persönlich für 
nichtabsehbare Zeit wichtig schienen [meistens waren es für den ersten Blick nur Klei- 
nigkeiten, [..] auszuschneiden und zu sammeln. Fast jeden zweiten Tag finde ich in 
der Zeitung eine derartige förmlich für mich allein bestimmte Nachricht, aber ich ha- 
be nicht die Ausdauer eine solche Sammlung für mich anzufangen, wie erst für mich 
sie fortsetzen. Für Dich aber mache ich es mit Freuden, tu es doch, wenn es Dir ge- 
fällt, von Deiner Seite für mich. Solche Nachrichten, die nicht für alle Leser bestimmt 
sind, sondern nur auf bestimmte Leser hie und da zielen, ohne dass der unbeteiligte 
Beurteiler den Grund des besonderen Interesses herausfinden könnte, gibt es doch ge- 
wiß fiir jeden und solche kleine Nachrichten, die Dich besonders bekümmern, hätten 
für mich mehr Wert als meine eigene Sammlung, die ich Dir also ohne großes Bedau- 
ern schicken könnte. Verstehe mich recht, nur kleine Ausschnitte aus Tageszeitungen 
meine ich, meistens über wirkliche Ereignisse, Ausschnitte aus Zeitschriften wären nur 
seltene Ausnahmen, Du darfst nicht glauben, dass ich Deine schönen Hefte für mich 
zerreißen will.” 


Ein Beispiel lieferte Kafka gleich mit, indem er eine ausgeschnittene Notiz aus der Aus- 
gabe des Prager Tagblatts vom 25. September 1912 über die Seligsprechung der Märtyrer von 
Uganda beilegte.”” Wenn Kafka einen nicht unwesentlichen Teil seines Briefes an Feli- 
ce Bauer damit zubringt, die Praktik des Ausschneidens und Sammelns von Zeitungs- 
nachrichten zu elaborieren, wird umso deutlicher, dass es sich hier nicht um eine Belie- 
bigkeit, sondern um einen methodisch ausgerichteten Vorgang der Selektion handelt. 
Die Kriterien seiner Auswahl erwähnt er zugleich; es handelt sich um solche Notizen, 
die »überraschend waren«, ihm »nahegingen«, oder ihm »persönlich für nicht absehba- 
re Zeit wichtig schienen«.”” Dabei macht er deutlich, dass die Auswahl geeigneter Zei- 
tungsnachrichten auf rein subjektiven Kriterien seinerseits beruht und er nimmt sogar 
an, dass Felice Bauer ihrerseits ebenso verfährt. 

Indem Kafka Zeitungen nicht einfach nur liest, sondern selektiert, ausschneidet und 
archiviert, individualisiert er nicht nur das Massenmedium, sondern nutzt es auch ganz 
im Sinne seiner Zeit als »das Papierobjekt der Moderne«°°. Die Praktik des Zeitungsaus- 
schneidens ist auf mehreren Ebenen an die Schreibprozeduren Kafkas anschlussfähig 
und bildet ein, wenn nicht gar das konstituierende Element. Es zeigt sich, dass Kafkas 
Weltkriegs-Schreiben ein collagierendes und kein lineares Erzählen ist: das Verschieben 
hin zu Mehrdeutigkeit und die Verratselung sind seinem Verfahren inhärent.?” Der Zei- 
tungsausschnitt als »Chiffre des modernen Massenlebens«?* wurde nicht selten mit der 
»Idee der Verwertung« aufbewahrt. Nicht zuletzt erfüllt er aber auch eine »cut and paste- 
Funktion«: »[...]In seinen variablen und mobilen Eigenschaften, im Trennen und Mon- 
tieren, Loslösen und Verschieben, Neuordnen und Rekombinieren ist der Zeitungsaus- 


27 Kafka, F. (1999): Brief an Felice Bauer vom 24.11.1912 In: Ders.: Briefe 1900-1912. Schriften Tagebü- 
cher Briefe, Kritische Ausgabe, hrg. v. Hans-Gerd Koch, Frankfurt a.M., S. 261. 

28 Ebd. 

29 Ebd. 

30 te Heesen, A. (2006): Der Zeitungsausschnitt. Ein Papierobjekt der Moderne. Frankfurt a.M., S. 21. 

31 Vgl. Kilcher: Politik und Parabolik, S. 225ff. 

32 te Heesen: Der Zeitungsausschnitt, S. 13. 

33  Ebd.,S.12. 
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schnitt ein für die Moderne konstitutives Objekt.«°* Bei der Frage nach der Einbettung 
und Operationalisierung von Weltkriegsdiskursen der Prager Presse in Kafkas literari- 
sche Texte muss hier betont werden, was zunächst evident zu sein scheint, im Weiteren 
aber eine größere methodische Relevanz haben wird: Kafkas literarisches Verfahren ist 
keines im Sinne von »copy and paste«. Es weist aber Elemente von »cut and paste«® auf. 


Topic Modeling als Methode 


Auch wenn bereits exemplarische Beispiele für Bezüge zwischen Kafkas Zeitungskon- 
sum und seinen literarischen Texten aufgezeigt wurden, steht eine systematische Un- 
tersuchung in der Forschung nach wie vor aus. Hierfür lohnt sich die Einbindung einer 
quantitativen Analysemethode. Nach wie vor ist in der Literaturwissenschaft eine ge- 
wisse Skepsis gegenüber quantitativen Analysemethoden beobachtbar, da diese geeig- 
net sein müssen, Antworten auf komplexe literaturwissenschaftliche Fragestellungen zu 
bieten - ihren Ursprung haben sie aber in anderen Fächern wie z.B. der Informatik, den 
Sozialwissenschaften oder auch der Computerlinguistik.”* 

Das hier vorgestellte Kafka-Beispiel verdeutlicht, wo die Herausforderungen liegen: 
Es geht nicht um Worthäufigkeiten, sondern um Bedeutungsanalyse. Es gilt also, eine 
quantitative Methode auszumachen, mit der die klassische literaturwissenschaftliche 
Fragestellung im Rahmen einer hermeneutischen, intertextuellen und diskursanalyti- 
schen Betrachtung angemessen bearbeitet werden kann. In seiner Versuchsreihe zur di- 
gitalen Literaturgeschichte erörtert Thomas Weitin die Potenziale und Herausforderun- 
gen quantitativer Methoden in der Geisteswissenschaft und liefert einen wichtigen Bei- 
trag zum aktuellen Methodendiskurs.*’ 2017 veröffentlichten Weitin und Herget einen 
Themenbeitrag in der Zeitschrift für Literaturwissenschaft und Linguistik, wo sie ihre 
Analyse des Deutschen Novellenschatzes von Paul Heyse anhand der Methode Topic Mode- 
ling vorstellten.?® Diese Methode scheint geeignet zu sein, um ein mittelgroßes Korpus 
wie das hier zu betrachtende Kafka-Korpus nach semantischen Strukturen untersuchen 
zu können und das ist auch das Versprechen dieser Methode: Die Sichtbarmachung la- 
tenter semantischer Strukturen”, oder auch »hidden structures«*°. Beim Topic Mode- 
ling handelt es sich um ein distant reading-Verfahren, das als Methode der quantitativen 
Bedeutungsanalyse geeignet ist, die Einzeltextanalyse mit der Analyse großer Textmen- 
gen zu kombinieren.“ Topic Modeling hat seine Basis nicht im Wörterzählen, sondern 


34 Ebd., S. 21. 

35 Vgl. ebd. 

36 Vgl. Weitin, T. (2021): Digitale Literaturgeschichte. Eine Versuchsreihe mit sieben Experimenten. 
Berlin: J.B. Metzler/Springer, S. 3. 

37 Vgl. ebd. 

38 Weitin: Scalable Reading. 

39 Weitin, T./Herget, K. (2017): Falkentopics. Über einige Probleme beim Topic Modeling literarischer 
Texte. In: Scalable Reading. LiLi. Zeitschrift für Literaturwissenschaft und Linguistik. [Online] 47 (1), 
S. 30. 

40 Vgl. Blei, D. (2011): Probabilistic Topic Modeling. In: Communications of the AMC 55.4., S. 79. 

41 Vgl. Weitin: Digitale Literaturgeschichte, S. 9. 
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beruht auf statistischen Modellen, die das gemeinsame Auftreten von Wörtern und de- 
ren unterschiedliche thematische Ausprägung in einem Text abbilden.“ Für das weitere 
Vorgehen ist es relevant, die Definition eines Topics näher zu betrachten: 


Unter einem »Topic«versteht man dabei eine Gruppe von Wörtern (wie zum Beispiel die 
Wörter »Theater«, »Schauspieler« und »Stück«), die in einem Text ungewöhnlich -d.h. 
statistisch auffällig — oft gemeinsam vorkommen. Ein >Topic« ist also ein statistisches 
Phänomen und damit zwar eine Entsprechung, aber nicht exakt das Gleiche wie ein 
(inhaltlich definiertes) Thema.* 


Das Verfahren lohnt sich bei der Exploration größerer Textmengen, eine tiefere Kenntnis 
des Prozesses sowie des Korpus sind aber unumgänglich, um die Ergebnisse sach- und 
fachgerecht interpretieren zu können und Scheinevidenzen zu vermeiden. Zwar handelt 
es sich bei den Topics nicht um Themen im literarischen Sinne, sie sind aber als solche 
interpretierbar“ und dienen somit als »Indikator für den jeweils verarbeiteten litera- 
rischen Stoff«.* Topic Modeling weist demnach eher »den Charakter einer textanalyti- 
schen Heuristik«* auf. Die literaturwissenschaftliche Unterscheidung zwischen Thema, 
Stoff, Motiv und Topos zeigt hier ihre besondere Relevanz, wenn es um die Auslegung 
der Ergebnisse geht. Und es ist auch eben jene Differenzierung, die sich als für die Kaf- 
ka-Deutung so herausfordernd erweist. Wo wir wieder bei Kafkas Weltkriegs-Schreiben 
wären und der Frage von Engel und Robertson, ob »das im Text behandelte Motiv (Signi- 
fikant) auch dessen Thema (Signifikat)«“” sei. 

Darüber hinaus handelt es sich beim Topic Modeling um ein probabilistisches, un- 
überwachtes Verfahren, das heißt, auch beim Setzen gleicher Parameter ist die Repro- 
duzierbarkeit nicht exakt gegeben.*® Das liegt auch darin begründet, dass man nur be- 
grenzt Einblick in den Maschinenraum des Algorithmus und den Verfahrensprozess der 
Modellierung erhält.“ Weitin schlussfolgert demzufolge: 


Der Gedanke, dass bei der Analyse von Bedeutung die Textlektüre die größte Kontext- 
sensitivität besitzt, wohingegen Topic Models abstrakte semantische Felder weit vom 
Text entfernt darstellen, ist sowohl semantisch als auch im technischen Sinne richtig, 
insofern es sich um ein bag of words-Verfahren handelt.°° 


42 Vgl. ebd., S.118ff. sowie J. Horstmann (2018): »Topic Modeling«. In: forTEXT. Literatur digital er- 
forschen, $ 2. URL: https://fortext.net/routinen/methoden/topic-modeling [Zugriff: 03. November 


2023]. 
43 Ebd. 
44 Vgl. ebd. 
45 Ebd. 
46 Ebd. 


47 Engel, M./Robertson, R. (2012): Vorwort/Preface. In: Engel, M./Robertson, R. (Hg.): Kafka, Prag und 
der Erste Weltkrieg, Würzburg: Königshausen und Neumann, S. 14. 

48 Vgl. Horstmann: Topic Modeling, $ 13. 

49 Vgl. ebd. 

50 Weitin: Digitale Literaturgeschichte, S. 9. 
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Das bedeutet demzufolge, »die entsprechenden statistischen Ergebnisse lassen sich 
nicht direkt hermeneutisch rekontextualisieren, indem man einzelne, gut interpretier- 
bare Wortfelder (Topics), die das Modell errechnet hat, im Text nachvollzieht.«* Weitin 
ist es dennoch wichtig zu betonen, dass es sich bei Topic Models nicht um black boxes 
handelt, da zu jedem Topic-Wort eine Konkordanz™ ausgegeben werden kann.” Ein be- 
stehendes Problem ist aber nach wie vor die Stabilität. Bei ihren Versuchen haben Weitin 
und sein Team Ernüchterndes zutage gefördert und als Lösungsansatz Kontrollmodelle 
einbezogen, die eine differenzierte Betrachtung der Ergebnisse ermöglichen.” 

Durch die vertiefte Recherche zum Topic Modeling und der aufschlussreichen Ver- 
suchsreihe der Darmstädter Literaturwissenschaftler:innen rund um Weitin sowie ei- 
gener Gehversuche mit der Methode, kristallisieren sich folgende wichtige Aspekte in 
Hinblick auf das Kafka-Korpus heraus: Preprocessing, Korpus-Kenntnis, Methoden-Kom- 
petenz (Coding). 


Preprocessing - Je sorgfältiger, desto besser 


Das Preprocessing für einen Versuch mit Topic Modeling erweist sich als recht aufwendig, 
voraussetzungsreich und erfordert Sorgfalt. Es ist aber unumgänglich, wenn überhaupt 
verlässliche und interpretierbare Ergebnisse im Verfahren entstehen sollen. Hier liegen 
im Bearbeitungsprozess noch größere Hürden vor, die mit zusätzlichen Arbeitsschrit- 
ten beseitigt werden sollen. Das ist auch der Grund, warum hier zu diesem Zeitpunkt 
noch keine bemerkenswerten Phänomene in den Topics oder aufwendige Visualisierun- 
gen abgebildet werden können und der experimentelle Charakter im Vordergrund steht. 

Das Korpus setzt sich zusammen aus den Zeitungsausgaben des Prager Tagblatts von 
1914-1918, Kafkas im Ersten Weltkrieg entstandene literarische Texte sowie seine Briefe 
und Tagebücher aus dieser Zeit. Die Zeitungsausgaben sind alle über das Projekt »AN- 
NO« (AustriaN Newspaper Online) der Österreichischen Nationalbibliothek online ab- 
rufbar.” Es handelt sich dabei um Digitalisate historischer Zeitungen und Zeitschriften. 
Einzelne Ausgaben können in hoher Auflösung online betrachtet werden und stehen zu- 
dem als Download im PDF-Format und als TXT-Datei zur Verfügung. Eine Volltextsu- 
che ist ebenso möglich. Für die Bereitstellung der Dateien arbeitet ANNO mit einem au- 
tomatisierten Verfahren zur Texterkennung (OCR).? Eine optische Zeichenerkennung 
(OCR) ist hier auch notwendig, da die zu untersuchenden Ausgaben im Original in Frak- 
tursatz gedruckt sind. Für die Zusammenstellung des Korpus können also die verfügba- 
ren TXT-Dateien verwendet werden. Sämtliche Texte Kafkas stehen über das TextGridRe- 
pository digitalisiert als XML-Dateiformat zur Verfügung. Für die Tagebücher und Briefe 


51 Ebd. 

52 Anmerkung: Es handelt sich dabei um eine Belegliste (meist im Format Key Word in Context), die 
den unmittelbaren Kontext der untersuchten Wörter aufzeigt. 

53 Vgl. ebd., S. 130f. 

54 Vgl. ebd., S. 132f. 

55 Abrufbar über: https://anno.onb.ac.at 

56 Zur Digitalisierung bei ANNO: https://anno.onb.ac.at/node/11 
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kann man zudem (vorerst) auf weitere digitale Ressourcen wie Gutenberg.de zurückgrei- 
fen. 

Bei dem vorliegenden Untersuchungsgegenstand handelt es sich also um ein mit- 
telgroßes Korpus. Das ist von Vorteil, da eine Einzeltextanalyse nach wie vor möglich 
ist und das too big to read-Argument nur bedingt greift, das Korpus aber schon groß ge- 
nugist, um ausreichend Repräsentanz abbilden können. Topic Modeling liegt in der Re- 
gel ein Algorithmus mit dem Namen Latent Dirichlet Allocation (LDA) zugrunde, auf dem 
auch das Tool MALLET basiert.” MALLET kann zudem in der Programmierumgebung R 
bzw. R-Studio als Software genutzt werden. Weitin und sein Team arbeiten in ihren Ver- 
suchsreihen damit und an den Schritten und Parametern habe ich mich bei den ersten 
Versuchen orientiert.” Für Topic Modeling wird darüber hinaus eine Stoppwortliste be- 
nötigt, um Funktionswörter auszusortieren, die kaum einen semantischen Wert haben. 
Mit einer Named Entity Recognition (NER) können z.B. Personennamen, oder Namen von 
Orten markiert, extrahiert und gesondert gelistet werden.” Diese Listen können aber 
jederzeit modifiziert und auch händisch ergänzt werden. Zu Beginn habe ich mit den 
entsprechend aufbereiteten Datensätzen der Zeitungsausgaben gearbeitet, um mir zu- 
nächst einen Überblick über diese Topics zu verschaffen; das fusionierte Kafka-Korpus 
sollte dann in den nächsten Schritten durchlaufen werden. Als Zielgröße wurden 100 To- 
pics 4 10 Wörter festgelegt und wie vorgeschlagen mit 10.000 Iterationen gearbeitet.‘° 
Die Parameter Topicanzahl, Wörter pro Topic und Iterationen werden dann je im wei- 
teren Durchlauf entsprechend angepasst, bis man stabile, reproduzierbare Ergebnisse 
hat. Hier traten bei meiner Durchführung erhebliche Schwierigkeiten auf, die sich auch 
mit veränderten Parametern nicht verbessern ließen. 

Ein Blick in die Datensätze des Zeitungskorpus gibt hier Aufschluss: Das Korpus ist 
schlichtweg noch zu fehlerhaft, um damit eine quantitative Analyse durchführen zu kön- 
nen. Trotz OCR-Verfahren hat die Übertragung vom ursprünglichen Fraktursatz in eine 
maschinenlesbare Text-Datei nur mangelhaft funktioniert. Schaut man sich die Digita- 
lisate bei ANNO in ihrer Bandbreite an, erkennt man, dass diese zwar eine hohe Quali- 
tät aufweisen, aber natürlich nur so gut wie die zu digitalisierenden Originale sein kön- 
nen. Und die sind sehr heterogen. Auch die recht zuverlässige Software ABBYY FineRea- 
der konnte hier zunächst keine wesentlichen Verbesserungen erzielen. Auch im Darm- 
städter LitLab arbeitet man mit OCR und einer händischen Nachkorrektur mit dem AB- 
BYY FineReader.” Um zu einem akzeptablen Volltextkorpus zu gelangen, führt an dem 
Schritt der händischen Korrektur wohl kaum ein Weg vorbei, was aber angesichts der 
Menge an Zeitungsausgaben für eine Einzelperson nur mit größtem Aufwand zu be- 
werkstelligen ist, denn es handelt sich um mehr als 1400 Ausgaben der Jahre 1914 bis 1918. 
Es stellt sich darüber hinaus auch die Frage, wie man bei der Aufbereitung des Korpus 


57 Vgl. Blei, D., Ng, A., Jordan, M. (2003): »Latent Dirichlet Allocation«. In: Journal of Machine Learn- 
ing Research. 3, 993-1022. 

58 Vgl. Weitin: Digitale Literaturgeschichte, S. 120ff. 

59 Vgl. Schumacher, M. (2018, § 1): »Named Entity Recognition (NER)«. In: forTEXT. Literatur digital 
erforschen. URL: https://fortext.net/routinen/methoden/named-entity-recognition-ner [Zugriff: 
04. November 2023]. 

60 Weitin/Herget: Falkentopics, S. 35. 

61 Vgl. die Anmerkung bei Weitin: Digitale Literaturgeschichte, S. 38. 
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mit dem charakteristischen Aufbau einer Zeitung verfahren soll: Sollen beispielsweise 
Bildunterschriften mit aufgenommen werden? Oder wie am besten mit dem Anzeigen- 
Teil verfahren, der für die Untersuchung interessant sein, aber kaum sinnvoll in eine 
Textdatei transferiert werden kann? 


Korpus-Kenntnis ist unverzichtbar 


Gerade hier bestätigt sich, wie wichtig eine tiefe Kenntnis des Korpus bei quantitativen 
Analyseverfahren ist. Das too big to read-Argument trifft bei einem mittelgroßen Korpus 
nur bedingt zu und es erweist sich als äußerst vorteilhaft, dass Literaturwissenschaft- 
ler:innen ihre zu untersuchenden Korpora ohnehin gut kennen und darüber hinaus auch 
über vertiefte Kenntnisse des historischen Kontextes, der Intertextualität etc. verfügen. 
Ohnehin wird das Korpus vor dem Hintergrund einer bestimmten Forschungsfrage zu- 
sammengestellt und ein konkretes Erkenntnisinteresse geht der Entscheidung für den 
Einsatz einer quantitativen Methode voraus. Beim Topic Modeling setzt man natürlich 
auf Ergebnisse, die interpretierbar sind und die eigenen Erwartungen bestenfalls bestä- 
tigen. Die Topics sollen auch etwas über den Inhalt des Korpus aussagen und die ver- 
borgenen, thematischen Strukturen sichtbar machen, die man durch die Einzeltextlek- 
türe bisher nicht erreichen konnte. Es ist grundsätzlich möglich, »ein distant reading-Er- 
gebnis aus dem Topic Modeling durch gezieltes close reading zu evaluieren« und es ist 
auch legitim, »eine einzeltextbezogene These [...] mit quantitativer Evidenz zu erhär- 
ten«.® Dennoch gilt es etwaige Scheinevidenzen zu vermeiden. Auch wenn Abweichun- 
gen vom Makrotrend auf besonderes Interesse stoßen, warnt Weitin vor »hermeneuti- 
sche[n] Schnellschiisse[n]« bei der Interpretation.“ So sollte bei etwaigen Abweichun- 
gen stets hinterfragt werden, »ob der hermeneutische Einzelbefund und das Ergebnis 
der statistischen Korpusanalyse überhaupt etwas miteinander zu tun haben.«°* Der con- 
firmation bias erweist sich also als nicht zu unterschätzendes Problem. 

Auch der Analyse des Kafka-Zeitungs-Korpus gehen ein paar Erwartungen voraus: 
Es handelt sich u.a. um eine erhoffte quantitative Evidenz der Thesen, die exemplarisch 
im close reading-Verfahren ausgemacht wurden. Weist das Modell also auch zuverlässig 
jene Themen in den Zeitungsausgaben in Bezug auf Kafkas literarische Texte als auffällig 
aus, die zuvor als solche identifiziert wurden? Wird beispielsweise der Diskurs rund um 
die Dressur von Menschenaffen, Zirkus und Variete, die für Kafkas Erzählung vom Af- 
fen Rotpeter im Bericht für eine Akademie prägend waren, durch Topics aufgezeigt? Oder 
beruht diese Erwartung schon auf falschen Annahmen bezüglich der Methode? Und wie 
steht es eigentlich um die in den Zeitungen gedruckten Texte, die aus Kafkas Feder selbst 
stammen? Also jene literarischen Texte wie z.B. Ein Traum, der in der Ausgabe vom 6. Ja- 
nuar 1917 zu finden ist. Der Erwartung zu viel wäre es wahrscheinlich, würde man dann 


62 Weitin/Herget: Falkentopics, S. 32. 

63 Vgl. Weitin: Digitale Literaturgeschichte, S. 133 sowie S. 54. Vgl. auch Weitin/Herget: Falkentopics, 
S. 32. 

64 + Weitin/Herget: Falkentopics, S. 32. 
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noch daraufbauen, dass sogar die Beiträge im Prager Tagblatt als statistisch auffällig an- 
gezeigt werden, die zwar aus Kafkas Hand stammen, aber im Rahmen seiner Amtstätig- 
keit entstanden sind, wie der Aufruf »Helfet den Kriegsinvaliden!« in der Ausgabe vom 
15. Dezember 1916. 


Code-Kompetenz: Der Blick in den Maschinenraum 


Neben einem sorgfältigen Preprocessing bei der Zusammenstellung des Korpus und einer 
profunden Kenntnis über das Korpus selbst, zeichnet sich außerdem ab, dass einschlä- 
giges Wissen über die jeweilige digitale Methode sowie den ihr zugrunde liegenden 
Algorithmus mindestens hilfreich, aber auch nahezu unerlässlich ist. Man muss nicht 
zwangsläufig eine Programmiersprache beherrschen, um Topic Modeling durchführen 
zu können. Es werden auch vermehrt Analyse-Packages angeboten, die durch eine 
Benutzeroberfläche für Einsteiger:innen bedienbar sind. Wer aber Einblick in den 
»Maschinenraum« erhalten will, um den Prozess hinter den Ergebnissen zu verstehen, 
kommt um eine eigene Code-Kompetenz nicht herum. Wer quantitative Methoden 
in die eigene Forschung mit einbeziehen will, hat im Studium wahrscheinlich kaum 
entsprechendes Handwerkszeug gelernt, es sei denn, man ist durch eine Teildisziplin 
oder persönliches Erkenntnisinteresse bei entsprechenden Seminaren z.B. der Compu- 
terlinguistik oder Korpuslinguistik, Sozialwissenschaft etc. gelandet. Darüber hinaus 
muss man sich dann gezielt weiterbilden. Weitin konstatiert, dass - im Gegensatz zu 
den Digital Humanities — die »geisteswissenschaftlichen Fächer Buchkulturen geblie- 
ben«° seien. Und so käme in den klassischen Medien »Digitale Geisteswissenschaften 
vor allem als Debatte über Digitale Geisteswissenschaften vor«.® Zur Rolle der Litera- 
turwissenschaft und ihrer Methoden im Zeitalter der Digitalisierung findet schon seit 
geraumer Zeit ein Fachdiskurs statt, der sich durch die Pandemie und den Einfluss von 
Künstlicher Intelligenz eine neue Dynamik bekommen hat. Interdisziplinäre Ansätze 
zeigen hier großes Potenzial und der vorliegende Band kann einen Beitrag zu diesem 
Fachdiskurs leisten. 

Wer bei Kafka zwischen den Zeilen lesen will, kann dem mit traditionellen literatur- 
wissenschaftlichen Methoden und einer sorgfältigen Einzeltextanalyse näherkommen. 
Eine quantitative Bedeutungsanalyse für eine größere Textmenge, die verborgene se- 
mantische Strukturen sichtbar machen kann, wie es die Methode Topic Modeling ver- 
spricht, kann einen wesentlichen Beitrag zur Forschung über Franz Kafka liefern. Dies 
gelingt aber nur, wenn man nicht mit der einen Methode die andere ersetzen will, son- 
dern sie sinnvoll ergänzt. Franz Kafkas als Zeitungsleser während des Ersten Weltkriegs 
und dessen Einbettung und Operationalisierung des Zeitungsmediums in den Schreib- 
prozess erweist sich als herausfordernde Fragestellung, die unter Berücksichtigung be- 
stimmter Voraussetzungen vielversprechend mit Topic Modeling als quantitativer Me- 
thode analysiert werden kann. 


65  Weitin: Digitale Literaturgeschichte, S. 3. 
66 Ebd. 


Über den Nutzen des Natural Language Processing 
in der computationellen Analyse literarischer Texte 
des »Naturalismus« und der >literarischen Moderne« 


Henning Femmer (Informatik) und Alexa Lucke (Literaturwissenschaft) 


1 Einleitung 


»Die< Moderne, ihre geschichtlichen und gegenwärtigen sozialen und kulturellen Aus- 
wirkungen sind mehr denn je in aktuellen gesellschaftlichen und wissenschaftlichen 
Diskussionen relevant. Bezeichnet man die »Spatmoderne derzeit als »neuerliche 
Version: der Moderne seit dem letzten Viertel des 20. Jahrhunderts’ oder die »breite Ge- 
genwart als ein »Chronotop<°, das bis in die 1990er reicht, stehen zeitliche Aspekte und 
historische Datierungsbemühungen im Zentrum dieser Konzepte. Letztlich berufen 
diese sich implizit oder explizit auf Hintergrundfolien wie Reinhart Kosellecks Theo- 
rem der »Sattelzeit« oder auf die »Modernetheorie, wie sie prominent Niklas Luhmann 
entfaltet hat«.? Die Aktualisierungen dieser einflussreichen Theorien entfalten insbe- 
sondere die gesellschaftlichen Auswirkungen von charakteristischen Imperativen der 
Moderne wie temporale Beschleunigung, ökonomische Steigerung und gegenwärtiger 
Aktualitätszwang.* 

Aus diesem Kontext ergibt sich auch ein zunehmendes wissenschaftliches Interesse 
an der empirischen Evidenz literaturgeschichtlicher Modellbildung sowie einer digita- 
len und empirischen Überprüfung anhand von tatsächlichen historischen Datenlagen 


1 Reckwitz A./Rosa, H. (2021): Spätmoderne in der Krise. Was leistet die Gesellschaftstheorie? Berlin. 

2 Gumbrecht, H.-U. (2010): Unsere breite Gegenwart. Aus dem Englischen von Frank Born, Berlin. 
Der Begriff »Chronotop« geht dabei auf Michael Bachtin zurück (vgl. ebd., S. 15). 

3 Vgl. Reckwitz/Rosa: Spatmoderne, S. 19. Vgl. Niklas Luhmann: Gesellschaftliche Struktur und se- 
mantische Tradition. In: Ders.: Gesellschaftsstruktur und Semantik. Studien zur Wissenssoziologie 
der modernen Gesellschaft. Bd. 1. Frankfurt a.M. 2 1998a [1993], S. 9-71, S. 27ff. 

4 Vgl. Reckwitz/Rosa: Spätmoderne, S. 19. 

5 Dabei darf man nicht übersehen, dass Daten selbst modelliert sind (vgl. Flanders, J., Jannidis, F. 
(2017): Data Modeling in a Digital Humanities Context. In: Dies. (Hg.): The Shape of Data in Dig- 
ital Humanities. Modeling Texts and Text-based Resources. London.) und auch wissenschaftliche 
Instrumente Wissen formen und beeinflussen (vgl. Baird, D. (2005): Thing Knowledge. A Philoso- 
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Bei der digitalen Analyse von literarischen Texten verändert sich dabei der Gegenstand 
einer digital modellierten Literatur vom Text zur Datenbasis. Praktiken der Moderne 
reichen laut Reckwitz® bis zu 250-500 Jahre zurück, so dass (z.B. praxeologische) Mo- 
delle, die historische Kontinuitäten oder Disruptionen zwischen literarischen Epochen 
(z.B. frühneuzeitlicher und moderner Ästhetik), Artefakten oder Symbolsystemen hypo- 
stasieren, beispielsweise durch die Anwendung von digitalen Methoden (z.B. NLP-ba- 
sierte Methoden oder mithilfe von Distanzmaßen in der Stilometrie) empirisch belegt, 
reflektiert und validiert werden können (und auch vice versa). 


1.1 Kontext und Vorgehensweise 


Im vorliegenden Beitrag wird experimentell der heuristische Nutzen eines NLP-ba- 
sierten Tools zur sprachlichen Qualitätsprüfung von Software-Anforderungen und 
Softwaretests für die computationelle Analyse von literarischen Texten transdiszipli- 
nar eruiert.” Entlang einiger exemplarischer literaturwissenschaftlichen Frage- und 
Problemstellungen werden sprachliche Vorkommnisse von ausgewählten literarischen 
Texten ermittelt, die im traditionellen Literaturkanon entweder dem Naturalismus oder 
der (literarischen) Moderne zugeordnet werden, um zu überprüfen, ob anhand der 
gemessenen Differenzen von relativen Häufigkeiten dieser Vorkommnisse tatsächlich 
eindeutige Epochenzugehörigkeiten abgeleitet werden können. Hierbei stehen beson- 
ders die hermeneutischen Mehrwerte einer digitalen Modellierung im Rahmen dieses 
Verfahrens aus dem Bereich des NLP (Natural Language Processing)? mit der Anwendung 
Qualicen Scout im Fokus dieses transdisziplinären Ansatzes, der sowohl auf explorativem 
als auch hypothesengeleitetem Vorgehen basiert. Zu diesem Zweck wird ein Mixed- 
Methods-Forschungsdesign? verwendet, bei dem Analysekategorien, Ergebnisse und 


phy of Scientific Instruments, Berkeley: University of California Press https://doi.org/10.1525/9780 
520928206) 

6 Vgl. Reckwitz/Rosa: Spatmoderne, S. 19, vgl. dazu insbesondere Kap. 2.2.1. 

7 Das Qualicen Scout stellt dabei multivariate Verfahren aus dem Bereich des NLP (Natural Lan- 
guage Processing) bereit, das mehrere Einflussfaktoren bei der computationellen Textanalyse 
gleichzeitig berücksichtigen kann, was der Komplexität von literarischen Texten entgegenkommt. 
Demgegenüber bewertet die Stilometrie die Text- bzw. Stilähnlichkeit zwischen Texten eindimen- 
sional anhand von Distanzmaßen und zieht daraus u.a. Rückschlüsse auf die Epochenzuordnung 
von Texten (z.B. können Texte derselben Epoche zugeordnet werden, wenn die Distanz zu dem 
Korpusmittelwert der (aller) Epochentexte gering ist). Die Distanzen werden nur mittels eines Pa- 
rameters ermittelt und zwar anhand der Differenz der Worthäufigkeiten im Text; es handelt sich 
dabei um einen univariaten Ansatz. 

8 Vgl. zueiner grundsätzlichen Beschreibung unterschiedlicher Teildisziplinen und Ansätze des NLP, 
der aus dem Bereich der Computerlinguistik kommt, den Beitrag von A. de Vries im vorliegenden 
Band. 

9 Vgl. Schröter, J./Du, K./Dudar, J./Rok, C./Schöch, C. (2021): From Keyness to Distinctiveness — Trian- 
gulation and Evaluation in Computational Literary Studies. In: Journal of Literary Theory 15 (1-2), 
Berlin/Boston, S. 81-108. (https://doi.org/10.1515/jlt-2021-2011). Vgl. auch die Beschreibungen und 
theoretischen Implikationen verschiedener Forschungsdesigns wie Mixed Methods und Entangled 
Methods bei Kleymann, R. (2021-2022): Datendiffraktion. Von Mixed zu Entangled Methods in den 
Digital Humanities. In: Fabrikation von Erkenntnis — Experimente in den Digital Humanities. Hg. v. 
M. Burghardt, L. Dieckmann, T. Steyer u.a., Wolfenbüttel (=Zeitschrift für digitale Geisteswissen- 
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Anforderungen wechselseitig, aus der Sicht von Literaturwissenschaft und Informa- 
tik, perspektiviert werden. Hermeneutische Verfahren werden diesbezüglich mit NLP 
basierten Methoden der Informatik für die Textanalyse kombiniert. 

Literarische Texte und die Modellierung kulturwissenschaftlicher und multimodaler 
Artefakte stellen aufgrund ihrer fiktionalen, ästhetischen und symbolisch-kulturellen, 
aber oft auch mehrdeutigen oder sogar widersprüchlichen Aspekte eine methodische 
Herausforderung für die Formalisierung in computationellen (quantitativen) Verfahren 
dar. Anhand von kulturwissenschaftlich orientierten literaturwissenschaftlichen Frage- 
stellungen werden verschiedene Textsorten (vornehmlich historische literarische Prosa- 
Texte) mit dem oben genannten Programm analysiert,” dessen originäre Aufgabe die 
sprachliche Qualitätsprüfung von Anforderungen und Tests in der Softwareentwicklung 
ist. Mit diesem Tool sollen epochenrelevante sprachliche Differenzen anhand von Dich- 
temessungen bestimmter sprachlicher Vorkommnisse in einem begrenzten Korpus von 
kanonisierten naturalistischen und modernen Texten empirisch überprüft werden. 

Es wird hier eine iterative Vorgehensweise" vorgeschlagen - mit der Anforderungs- 
spezifikation nach erfolgter hermeneutischer Validierung der sprachlichen Filter des Pro- 
gramms gemäß der vorgeschlagenen literaturwissenschaftlichen Analysekriterien und 
-kategorien: 

1. Zunächst wird der literaturgeschichtliche Hintergrund skizziert, insbesondere an- 
hand von charakteristischen Epochenmerkmalen, sowie die Relationen zwischen indivi- 
duellem Text und übergeordneter Epoche entlang einiger Annahmen aus der einschlägi- 
gen literaturwissenschaftlichen Forschung (Kap. 2). 2. Vor dieser Folie werden mögliche 
Kriterien für (vorläufige) formale Anforderungen (requirements) vorgeschlagen, die sich 
aus der literaturgeschichtlichen Skizze und aus den literaturwissenschaftlichen Frage- 
stellungen ergeben (3.1). 3. In einem dritten Schritt werden die bereits vorhandenen Fil- 
ter des Tools Qualicen Scout angewendet (Kap. 4). 4. Die Forschungsergebnisse, die aus 
der computationellen Analyse resultieren (4.5), werden sowohl aus informatischer als 
auch literaturwissenschaftlicher Perspektive diskutiert (Kap. 5) und validiert, indem hier 
exemplarisch geprüft wird, inwieweit die vorgegebenen Filter den vorgeschlagenen An- 
forderungen gerecht werden (Kap. 6) und 5. der Nutzen der NLP-basierten Verfahren, 
die das Tool zur Verfügung stellt, evaluiert (Kap. 7). Dabei wird insbesondere geprüft, 


schaften, Sonderband 5, DOI: 10.17175/sbo05_008). Eine semantische Mehrdeutigkeit und die dis- 
ziplinär differierende Verwendung des Begriffs »Methode« (griech: mét-hodos, »der Weg auf ein 
Ziel hin«, vgl. ebd.) lässt sich bei einem transdisziplinären Ansatz schwer vermeiden. Im Kontext 
des vorliegenden Bands verstehen wir als »Methoden« in der Informatik z.B. NLP-basierte Metho- 
den oder Stilometrie und nicht etwa das dazu passende >Took (z.B. Qualicen Scout bzw. »stylo< in 
R), während in der Literaturwissenschaft hermeneutische und narrotologische Verfahrensweisen 
oder Close Reading gemeint sind. In diesem Beitrag wird insbesondere ein NLP-basiertes techni- 
sches Verfahren aus der Informatik mit den hermeneutischen Verfahren aus der Literaturwissen- 
schaft kombiniert, außerdem Verfahren des Distant und Close Reading. 

10 Dabei orientiert sich der vorliegende Beitrag und das Vorgehen in etwa an den Experimenten 
von Weitin, T. (2021): Digitale Literaturgeschichte. Eine Versuchsreihe mit sieben Experimenten, 
Berlin. 

11 Vgl. Gius, E./Jacke, J.: The Hermeneutic Profit of Annotation: On Preventing and Fostering Dis- 
agreement in Literary Analysis, In: International Journal of Humanities and Arts Computing 11.2 
(2017), S. 233-254, S. 240. 
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welche Analysen (d.h. Smell-Erkennungsregeln, Parameter, Filter und daraus resultie- 
render Metriken) in dem Programm für die Literaturtextanalyse geeignet sind und wel- 
che zukünftigen Analysen für die Aufgabenstellung sinnvoll sein könnten. Auf der Basis 
dessen werden die Anforderungen für die Modifikation und Erweiterung der Analysen 
spezifiziert. Aus informatischer Sicht werden dabei die Anpassungsmöglichkeiten der 
Analysen an die literaturwissenschaftlichen Anforderungen ausgelotet. Damit kann eine 
Revision und Reformulierung der literaturwissenschaftlichen Fragestellung(en) einher- 
gehen. Die vorliegende Studie versteht sich dabei als qualitative (und auch explorative) 
Vorstudie, da sie der Anpassung von sprachlichen Analysen durch NLP-basierte Verfah- 
ren an literaturwissenschaftliche Anforderungen für zukünftige Projekte dienen soll. 


1.2 Literaturwissenschaftliche Problem und Aufgabenstellung: 
Naturalismus vs. (naturalistische) Moderne 


Auf die aus literaturwissenschaftlicher Perspektive offensichtliche Gefahr hin, allzu 
komplexitäts- und kontextreduzierend zu verfahren, werden in diesem Beitrag zwei 
traditionelle Epochen - Naturalismus und Moderne - unter Einsatz eines NLP-ba- 
sierten Tools miteinander verglichen,” und zwar anhand von Texten, die jeweils als 
Repräsentanten »ihrer< Epochen gelten: z.B. Gerhart Hauptmanns Bahnwärter Thiel für 
den Naturalismus und Franz Kafkas Ein Landarzt, Vor dem Gesetz, Ein Traum und Ers- 
tes Leid als Beispiele für Texte der Moderne. Einen oder mehrere Texte Franz Kafkas 
heranzuziehen ist dabei ein aus literaturwissenschaftlicher Sicht diskussionswürdiges 
Unterfangen, da »Kafka< zum einen als prototypischer Vertreter der Moderne, also seine 
Autorschaft und seine Texte als stypisch modern: gesehen werden. Zum anderen wurden 
seine Texte häufig als »kafkaesk« bezeichnet, ein polysemer Begriff,” der eine Art einzig- 
artige Besonderheit seiner Texte repräsentiert, die von Seiten der Forschung nur äußerst 
schwer einzuordnen ist, so dass seine individuelle Beziehung zur literarischen Moderne 
immer wieder Gegenstand vieler Forschungen ist und war.'* Diese individuelle Beson- 
derheit seines Schreibstils bzw. seiner Schreibstrategien” wird in ihrer Verlässlichkeit 
bzw. Unzuverlässigkeit der Realitäts- und Weltkonstruktion selbst wiederum kontrovers 
diskutiert, da sie entweder eine Referenz auf eine unzuverlässige und absurde Realität 


12 _ Vgl. Schröter u.a.: From Keyness to Distinctiveness, S. 92. 

13 Tatsächlich hat sich der Begriff gegenüber seinen ursprünglichen Bedeutungen etwas verändert 
und relativiert. So sieht es auch Thomas Anz, der die Reichweite des Begriffs problematisiert: »[...] 
mit Kafka und seinem Werk hat die Bezeichnung »kafkaesk« nur noch entfernt etwas zu tun. Die 
mit ihren verbundenen Vorstellungen sind weitgehend festgelegt und gegenüber Korrekturen 
durch genauere, kenntnisreichere und methodisch versiertere Text- und Kontextlektüren kaum 
noch zu erschüttern« (Anz, T. (2009): Franz Kafka. Leben und Werk, München, S. 14.) Das »Kafka- 
eske« äußere sich laut Duden, in den der Begriff nach eigener Angabe 1973 aufgenommen wurde, 
»in der Art der Schilderungen Kafkas; auf unergründliche Weise bedrohlich« (Der Duden Online: 
https://www.duden.de/rechtschreibung/kafkaesk, letzter Zugriff am 17.12.2021). 

14 Vgl. Spector, S. (2008): Kafka und die literarischen Moderne. In: Jagow, B. v./Jahraus, O.: Kafka- 
Handbuch. Leben - Werk - Wirkung, Göttingen, S. 181-193, S. 181. 

15 Vgl. Spector: Kafka und die literarische Moderne, S. 184. 
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oder eine unzuverlässige und verzerrte, (alp)traumhafte'® Wahrnehmung der Realität 
impliziert.” Es wäre denkbar und möglich, dass die Problematik der (hermeneutischen) 
Verstehbarkeit von Kafkas Texten aus einer (quantitativ und/oder qualitativ) unsicheren 
oder unvollständigen Datenlage resultiert. Aus diesem Grund wird jeweils ein weiterer 
Text bzw. Textausschnitt aus beiden Epochen hinzugezogen, um das Ausmaß der rein 
individuellen Textunterschiede etwas zu minimieren. Als weiterer Text der Moderne 
wird exemplarisch ein Textausschnitt (die ersten 10 Kapitel) des Romans Der Mann ohne 
Eigenschaften (Musil) herangezogen, als weiterer »typischer< Text des Naturalismus der 
Roman Papa Hamlet (Holz/Schlaf, Textausschnitt). 

Eindeutige und distinkte Epochengrenzen zwischen historischen Zeitabschnitten zu 
ziehen, gilt angesichts der Heterogenität und Individualität von Texten derselben his- 
torischen Zeitabschnitte und angesichts der Problematik von Literaturgeschichtskon- 
struktion anhand von normativen Leitgedanken und bildungspolitischen Programmen 
in der Literaturwissenschaft inzwischen als problematisch. 

Denn die Verhältnisse individueller literarischer Texte zur jeweiligen übergeord- 
neten Epoche können variieren - manche repräsentieren prototypisch bestimmte 
Epochenbegriffe (wie die Werke Goethes und Schillers die »Weimarer Klassik), andere 
initiieren erst neue Epochenbezeichnungen durch beispielsweise das Kreieren neu- 
er literarischer Gattungen bzw. ästhetischer Programme (wie z.B. das »dadaistische 
Manifest). Wieder andere sind vergessen, verworfen oder nicht beachtet worden," au- 
ßerdem repräsentieren sie vielleicht etwas, das außerhalb einer übergeordneten Epoche 
liegt oder sich vollkommen gegensätzlich dazu verhält (wie z.B. Kleists »Antiklassik« als 
Ausdruck einer problematischen Zuordnung zwischen Klassik und Romantik), - und 
unterlaufen so die kanonisch etablierten Klassifizierungen und Deutungszusammen- 
hänge. Epochendifferenzierende Konzeptionen aufgrund von zeitgenössischen oder 
auch rehistorisierenden ästhetisch-poetologischen Theorien bleiben zu starr für die 
Individualität und flüchtigen Momentaufnahmen einzelner literarischer Texte, darüber 
hinaus bleiben ästhetische Konzeptionen für die Literatur zumeist philosophischen 
Problemstellungen verhaftet." 

Im europäischen Vergleich gibt es überdies Unterschiede der Epochenbezeich- 
nungen, einige weichen von den deutschen ab und lassen die »deutsche Literaturge- 


16 Laut der Website franzkafka.de, eine Website, die vom S. FISCHER Verlag unterstützt wird, taucht 
der Begriff des Kafkaesken im Laufe der 1950er Jahre auf. Ursprünglich stützte sich der Ausdruck 
auf Kafkas Roman Der Prozess, indem als kafkaesk bezeichnet wurde, was als unendlich, im kreis- 
gehend und alptraumhaft betrachtet wird. 

17 Im ersten Fall kann die erzählte Textwelt natürlich sein und sich mit der umgebenden »Realität« 
decken, im zweiten Fall würde sich die Textwelt von der umgebenden Realität unterscheiden. Bei- 
de Weltsichten repräsentieren typisch moderne Erzählperspektiven in literarischen Texten, in de- 
nen sich Modernisierung, Technisierung und extreme Veränderungen von gesellschaftlichen Sys- 
temen aufeine Krise der Repräsentation und allgemeine Sprachskepis auswirken, auf eine externe 
Realität referieren zu können. 

18 Vgl. in diesem Zusammenhang den Begriff des Great Unread der Literaturgeschichte von Franco 
Moretti (2013). 

19 Vgl. zu diesem Zusammenhang Lucke, A. (2021): Schillers Ästhetische Briefe als Literatur. Der Voll- 
zug von literarischen Praktiken in der ästhetischen Kunst, Bielefeld, insb. Kap. 1. 
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schichte als stark konstruiert erscheinen. Statt »Goethezeit« beispielsweise heißt es 
heute vermehrt >18. Jahrhundert«. Realismus und Naturalismus werden nicht unbedingt 
unterschieden, stattdessen spricht man eher vom »19. Jahrhundert: oder Zeitraum von 
1800-1900”°. Teilweise werden auch »Naturalismus< und »Moderne schlicht in Be- 
zeichnungen wie >Jahrhundertwende oder sum 1900 vermengt. In der Erschließung 
von Literatur in ihrer historischen Dimension werden dennoch häufig Epochensigna- 
turen und -narrative berührt, die in aktuellen Diskussionen aber eher als dynamisch 
und multipel angesehen werden.” In der gegenwärtigen literaturgeschichtlichen und 
historiographischen Forschung geht es also vermehrt darum, wie sich verschiedene 
Gattungsprofile, sprachliche und stilistische Ausdrucksformen, ästhetische Programme 
und kulturgeschichtliche Aspekte untereinander konstellieren.” 

Inzwischen werden >Alternativgeschichten zur westlich geprägten Literaturge- 
schichte geschrieben, aufgrund von überlappenden und widerstreitenden transhistori- 
schen und -kulturellen Wissensdiskursen, (wieder)entdeckten Texten, Autor:innen oder 
ihrer neu erfassten relevanten Kontexte, so dass es umso mehr gilt, die traditionellen 
Epochen-Kategorien des Literaturkanons anhand von computationellen Methoden 
empirisch und systematisch zu überprüfen. 

Dazu soll in diesem Beitrag der Nutzen des Natural Language Processing, hier unter 
Anwendung von bestehenden Algorithmen des Qualicen Scout (Visualisierung mit Micro- 
soft Excel©), für die Literaturtextanalyse evaluiert werden, um erste Anhaltspunkte für 
zukünftige Messungen von Disruptionen” (wie zwischen Moderne und Frühneuzeit) zu 
bekommen, die womöglich zu einer Reorganisation von Epochensystematiken und zu 
alternativen Literaturgeschichtsschreibungen führen, und um Anforderungen für die li- 
teraturwissenschaftliche Analyse spezifizieren zu können. 

Ein Fokus in der vorliegenden Studie liegt auf dem Phänomen »Naturalismus<, der 
lange Zeit als eine Unterströmung des Realismus galt, inzwischen auch als »natura- 
listische Moderne: bezeichnet wird, was die Epochenklassifizierungen Naturalismus/ 


20 Vgl. die »breiten< Zeiträume im Verbundprojekt »LiGeDi — Literaturgeschichten erarbeiten. Ge- 
meinsam im Digitalen« der Universitäten Paderborn, Bielefeld und der Bergischen Universität 
Wuppertal (https://literaturgeschichten.de/). [29.10.2023] 

21 Vgl. Hempfer, K.W./Rosen, Vv. (2021): Multiple Epochisierungen. Literatur und Bildende Kunst 
1500-1800, Berlin. 

22 Vgl.dazu auch Haas, A., Haas, M., Magauer, H., Pohl, D. (Hg.) (2021): How to Relate — Wissen, Küns- 
te, Praktiken. Schriftenreihe des DFG-Graduiertenkollegs Das Wissen der Kiinste, Bd. 6, hg. v. B. 
Gronau u. K. Peters, Paderborn sowie Hempfer/Rosen: Multiple Epochisierungen. 

23 Disruption wird hier im Sinne einer (historischen) Strukturbruchs verstanden, vgl. Konle, L./ 
Jannidis, F./Martus, S. (2021): Disruptionen der Literaturwissenschaft am Beispiel der DVjs. Metho- 
dische Validierung durch Simulation und Anwendung. In: Fabrikation von Erkenntnis. Hg. von M. 
Burghardt, L. Dieckmann, T. Steyer u.a., DOI: 10.26298/melusina.8f8w-y749-ddla. »Wir definieren 
Disruption als einen sprunghaften, außerhalb der Norm liegenden Unterschied zwischen zeitli- 
chen Einheiten.« (Ebd.) Disruption kann aber auch als kulturanalytische Kategorie die Konnota- 
tionen von »Unterbrechung« und »Störung« vorhandener historisch gewachsener Diskurssemanti- 
ken und -praktiken mit sich führen, wie sie dem Potential (der Künste) zugeschrieben werden, vgl. 
Koch L., Nanz T., Pause]. (2018): Disruption in the Arts. Textual, Visual, and Performative Strategies 
for Analyzing Societal Self-Descriptions, Berlin, S. 291-314, S. 291. 
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Moderne (und ihre Unterscheidungskriterien) als kontingent erscheinen lässt.”* Damit 
einhergehend stellt sich die Frage, inwiefern die Deutungsproblematik von Kafkas Tex- 
ten sich als Symptom einer problematischen Zuordnung erweisen könnte. Ausgehend 
von der Annahme, dass ähnliche Werte bei den einzelnen gemessenen Metriken” die 
Zugehörigkeit von Texten einer (gemeinsamen) Epoche anzeigen können, aber nicht 
zwingend müssen, da auch individuelle Stile von Texten eine Rolle spielen können, wird 
die Density (Dichte, vgl. 4.4) von sprachlichen Findings” zwischen den untersuchten 
Texten und einzelnen Parametern miteinander verglichen. Größere Unterschiede in der 
Density könnten eventuell größere (epochale) Abstände zwischen den Texten aufweisen. 

Erschwerend für eine Operationalisierung von Epochendifferenzen und -zugehö- 
rigkeiten anhand von Texten kommt hinzu, dass zwischen Naturalismus und Moder- 
ne noch einige weitere literarische Strömungen zwischen dem ausgehendem 19. Jahr- 
hundert und dem beginnenden 20. Jahrhundert liegen.” Außerdem könnten die litera- 
rischen Texte beider Epochen mit relativ geringem zeitlichen Abstand für die Filter des 
Qualicen Scout zuähnlich sein, als dass feinere sprachliche Unterschiede entdeckt werden 
können. 

Eine weitere Besonderheit der Epochengrenzen liegt in der Problematik begründet, 
dass die Moderne sowohl als Mikro-, als auch als Makroepochenbezeichnung in der Li- 
teraturwissenschaft vorliegt, da bereits die Frage umstritten ist, wann die Moderne be- 
ginnt.”® Zum einen ist mit der (Literarischen) Moderne speziell ein Zeitabschnitt seit An- 
fang des 20. Jahrhunderts bis ungefähr in die 1990er Jahre” hinein gemeint, zum ande- 


24 Vgl. dazu Kapitel 2. Ein Kennzeichen moderner Prosa wäre beispielsweise der erhöhte Anteil an 
wörtlicher Rede, bei der Prosa des Realismus wären demgegenüber lange Sätze der Naturbeschrei- 
bungen zu erwarten. 

25 Vgl. Kap. 4.4: wie die Maße über die absolute oder relative Häufigkeit gewisser sprachlicher Auf- 
fälligkeiten, den sog. Smells. 

26 Def. Findings: Konkrete Instanz eines Smells in einem konkreten Text. 

27 Wie Ästhetizismus, Dekadenz, Fin-de-siécle (in Europa, speziell Frankreich und England), welche 
oft synonym gebraucht werden und bereits als gegen-naturalistisch gelten, ebenso der Jugendstil, 
der Symbolismus, die Wiener Moderne, der Expressionismus, der Surrealismus und der Dadais- 
mus u.a. 

28 Vgl. den Eintrag »Moderne« im Fischer Lexikon Literatur, Bürger, P (1996): Moderne. In: Fischer 
Lexikon Literatur G-M, hg. v. Ulfert Ricklefs, Frankfurt a.M., S. 1287-1319, S. 1287. 

29 Vgl. Bürger: Moderne, S. 1287. Als Mikroepoche ist die Moderne nach Bürger aber zeitlich auch 
nicht ganz klar eingrenzbar. Es gibt in diesem Zusammenhang zum Beispiel vage Zeitangaben 
und -fenster. Zum einen wird diese Epoche vom ersten Jahrzehnt bis in die 1990er Jahre des 20. 
Jahrhunderts verortet (vgl. ein ähnliches Zeitfenster der »industriellen Moderne, vgl. H. Rosa: 
Best Account. Skizze einer systematischen Theorie der modernen Gesellschaft. In: Reckwitz/Rosa: 
Spätmoderne, S.104ff.). Zum anderen wird die literarische Moderne von 1880 bis 1920 datiert 
(vgl. Spector: Kafka und die literarische Moderne, S. 183). Diese Datierung hätte zur Folge, dass 
Hauptmanns Text und Kafkas Ein Landarzt in einen Zeitraum fielen. »Die erste Erwähnung des Be- 
griffs der Moderne findet sich im Jahr 1886 im Zusammenhang mit dem Naturalismus, obwohl 
die meisten der zentraleuropäischen Bewegungen, die sich selbst als modern verstanden, ausge- 
sprochen antinaturalistisch waren, wie es Hermann Bahrs einflussreiches programmatisches Werk 
bezeugt.« (Spector: Kafka und die literarische Moderne, S. 183). 
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ren mit Moderne der gesamte Bereich moderner Literatur seit der zweiten Hälfte des 18. 
Jahrhunderts, in der Abgrenzung zur Frühneuzeit.?° 


1.3 Fragestellung, Methoden und Hypothesen?! 


Aus dieser kurz skizzierten literaturhistorischen Problem- und Aufgabenstellung ergibt 
sich die Fragestellung (FF1), ob und inwiefern sich Naturalismus und Moderne (als Mi- 
kroepoche) anhand einer Auswahl an für ihre Epoche prototypisch geltenden Texten bzw. 
Textausschnitten auf der empirischen Ebene voneinander unterscheiden lassen.” D.h. 
inwiefern unterscheiden sich die Texte tatsächlich hinsichtlich sprachlicher Besonder- 
heiten unter Anwendung (der Qualitätsprüfung) eines NLP-basierten Tools so signifi- 
kant, dass dort eine Disruption als historischer Bruch zwischen beiden Epochen »gemes- 
sen: werden kann (Hypothese 1).” Eine damit verbundene Frage wäre, ob etwaige Un- 
terschiede zwischen literarischen Texten in relativer zeitlicher Nähe mit dieser digitalen 
Methode überhaupt sicht- und messbar werden (FF 3) oder das Fehlen von messbaren 
Unterschieden zwischen beiden Mikroepochen Indizien für die Annahme einer Makro- 
epoche liefern können (Hypthese 2). In diesem Zusammenhang interessiert ebenfalls die 
Frage, ob die Analyse mit Qualicen Scout Indizien dafür liefert, Kafkas Erzähltexte einer 
der beiden Epochen zuordnen zu können (FF 2). Die Ergebnisse werden daher im An- 
schluss mit Bezug auf den literaturhistorischen Hintergrund hermeneutisch validiert.” 

In diesem Zusammenhang wird auch der Nutzen von NLP-basierten Verfahren für 
die Literaturtextanalyse experimentell getestet, diskutiert und evaluiert, ebenso wie die 
literaturwissenschaftlichen requirements (Anforderungen) in einer Anforderungsanalyse 
und -spezifikation überprüft und weiterentwickelt. 

Die Hypothese (1) beinhaltet die Annahme, dass sich die Entwicklung der Litera- 
tur zunehmend in die Richtung einer komplexeren, kunstvolleren, ästhetisch virtuosen, 
aber auch paradoxen, widersprüchlichen, unbestimmteren und metafiktionalen Spra- 
che am Anfang des 20. Jahrhunderts vollzieht, weil sie als das widersprüchliche Pen- 
dant einer spannungsreichen Wirklichkeit (Adorno) diese nicht mehr adäquat zu reprä- 
sentieren vermag. Die hieraus abgeleitete Konsequenz wäre, dass das Programm, das 
Qualitätsbewertungen zur Eindeutigkeit von Texten aufgrund bestimmter vorgegebener 
sprachlicher Filter ausgibt, Texte des Naturalismus besser bewerten würde - aufgrund 
ihres naturwissenschaftlich orientierten und mimetisch-abbildenden Sprachmodus - 
als zum Beispiel »moderne< Texte von Kafka, die als eher uneindeutig und schwer kontex- 
tualisierbar gelten. Literarische Texte (und insbesondere moderne Texte) dürften durch 


30 Vgl. Kap. 2.2.1. 

31 Vgl. dazu auch 3.1. 

32 Eine Problematisierung und empirische Überprüfung von Epochengrenzen mit quantitativen Me- 
thoden erscheint durchaus legitim, denn diese werden immer noch in den Literaturgeschichten 
und Lehrbüchern für Studium und Schule vermittelt. Es gibt aber viele gemeinsame Merkmale in 
beiden Epochen - allein das Prinzip der industriellen Technisierung scheint für Naturalismus und 
Moderne gleichermaßen zu gelten, so dass eine quantitative Analyse hier sinnvoll erscheint. 

33 Vgl. dazu die Studie zur Disruption in Texten der DVjs von Konle, Jannidis u.a.: Disruptionen der 
Literaturwissenschaft. 

34 Vgl. dazu die Übersicht der Forschungsfragen und Hypothesen in Kap. 3.1. 
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kunstvolle Operationen, irreführende Referenzbezüge, ana-, anti- und achronische Zeit- 
logiken, Widersprüche und Gleichzeitigkeiten von Position und Negation” insgesamt 
uneindeutiger sein.’ Die zugrundeliegende Frage ist die nach der Epochenstruktur ei- 
ner »Moderne«, ob diese eher als Makroepoche seit der zweiten Hälfte des 18. Jahrhun- 
derts (Hypothese 2)” oder als Mikroepoche (Hypothese 1) vorliegt und ob der Naturalis- 
mus als eigene Strömung (Hypothese 1) oder als »naturalistische Moderne« (Hypothese 2, 
vgl. Kap. 2.1) einzuordnen wäre. Damit verbunden sind ebenfalls schwierig zu operatio- 
nalisierende Fragen zur Kongruenz bzw. Differenz von ästhetisch-programmatischem 
Selbstverständnis, auf deren Basis Epochenkategorien häufig legitimiert wurden, und 
tatsächlicher empirischer Datenlage.” 

Die automatisierte Qualitätsanalyse kann dabei ein breites Spektrum an lexikali- 
schen und grammatikalischen Indizien für schlechte Qualität (sog. Requirements Smells) 
erkennen. Ein Requirements Smell bezeichnet dabei eine konkret beobachtbare (d.h. 
lokalisierbare) Stelle eines Entwicklungsartefaktes, die potentiell zu einem Problem 
im Entwicklungsprozess führen könnte und einen konkreten (d.h. automatisierbaren) 
Erkennungsmechanismus angeben kann.” Eine konkrete Instanz eines Smells in ei- 
nem konkreten Text bezeichnet man als Finding, welches als Indikator für bestimmte 
(semantische) Sachverhalte stehen kann, aber nicht muss. Smells variieren in zwei 
Dimensionen äußerst stark: Zum einen in Präzision und Recall der automatisierten 
Erkennung des Smells, d.h. bestimmte Smells werden ungenau (Präzision; falsche Tref- 
fer werden angezeigt) oder unvollständig (Recall; nicht alle tatsächlich vorhandenen 
Treffer werden angezeigt) erkannt. Zum anderen variiert die Relation des Smells zur 
Konsequenz. D.h. bestimmte Smells habe eine hohe Kritikalität und Bedeutung in- 
nerhalb der Softwareentwicklung, etwa weil dadurch ein Vertragsgegenstand durch 
eine vage Formulierung klar und erkennbar ungültig wird, andere Smells sind nur in 
bestimmten Anwendungsdomänen und Entwicklungsprozessen ein Problem.*° Auf- 
grund dieser Variation betrachtet diese Studie nur einen Teilausschnitt aller möglichen 
Smells, namentlich Superlative, Referenzen, vage Ausdrücke und Negationen, als Pa- 
rameter mit voreingestellten Filterregeln für das Erkennen von solchen sprachlichen 
Vorkommnissen. 

Es werden nur Prosa-Texte, also Erzählungen oder Auszüge aus Romanen für die 
computationelle Analyse literarischer Texte verwendet, damit Unterschiede zwischen 
den traditionellen literarischen Gattungen nicht zusätzlich ins Gewicht fallen. 


35 Vgl. zur Formalisierungsproblematik von »Negation« in der Transzendentalphilosophie Lucke: 
Schillers Ästhetische Briefe als Literatur, S. 120ff. 

36 Diese Merkmale müssten in einem noch höheren Grade für Texte der Postmoderne gelten, deren 
Formen und Ausdrucksweisen noch als Steigerung und Überbietung von modernen literarischen 
Prinzipien gesehen werden. 

37 Vgl. dazu3.1. 

38 Vgl.2.. 

39 Vgl. Femmer, H., Mendez-Fernandez, D., Wagner, S., & Eder, S. (2017). Rapid quality assurance with 
requirements smells. Journal of Systems and Software, 123, S. 190-213. 

40 Vgl. Femmer, H., Unterkalmsteiner, M., & Gorschek, T. (2017, September): Which requirements ar- 
tifact quality defects are automatically detectable? A case study. In: 2017 IEEE 25th International 
Requirements Engineering Conference Workshops (REW). IEEE, S. 400-406. 
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2 Literaturgeschichtlicher Hintergrund: Epochenmodellierungen 
des Naturalismus vs. der (literarischen) Moderne 


Der nachfolgende ausführliche literaturhistorische Überblick über die Epochen und ih- 
re vordergründigen Merkmale sowie das Skizzieren des jeweiligen Forschungsstands zu 
den einzelnen untersuchten Texten soll ermöglichen, Anforderungen anhand von lite- 
raturwissenschaftlicher Expertise zunächst zu analysieren und nach ersten Ergebnis- 
sen des Tools weiter zu spezifizieren. Die Vorgeschichte beider Mikro-Epochen (Natu- 
ralismus und literarische Moderne) bildet das 19. Jahrhundert (wichtige Epochen im 19. 
Jh.: Romantik und Realismus) — bei der Vorgeschichte einer Moderne als Makroepoche 
handelte es sich demgegenüber um die Frühneuzeit. Für eine »naturalistische Moder- 
ne spräche die Überschneidung einiger Motive im Naturalismus und in der Moderne: 
die Technisierung, die Urbanisierung, die Beziehung auf wissenschaftlich fundierte Er- 
kenntnisse, die Sprach- und Gesellschaftskritik oder zum Beispiel neue literarische und 
erzählerische Stile (wie z.B. neue Formen der Figurenrede) oder neue ästhetische Posi- 
tionen und Verfahren. 


2.1 Naturalismus oder naturalistische Moderne? 


Während man üblicherweise den Naturalismus mit einem auf (natur-)wissenschaftli- 
chen Erkenntnissen und Errungenschaften gründenden Weltbild verbindet, gibt es un- 
terschiedliche Auffassungen im und über den Naturalismus, welche implizieren, dass 
mehrere und verschiedene semantische Herleitungen des Begriffs kursieren und dass 
die Einordnung des Naturalismus wahrscheinlich eine Frage der Situierung*' ist. 

Übernatürliche und metaphysische Dinge werden prinzipiell aufnoch nicht wissen- 
schaftlich erklärbare Phänomene zurückführt.“ Allgemeine Naturgesetze und eine Rei- 
he von revolutionären technischen Erfindungen prägen das allgemeine Verständnis der 
naturalistischen Weltsicht wie z.B. William Harveys Entdeckung des Blutkreislaufs, die 
Newtonschen Gesetze oder das Periodensystem der chemischen Elemente von Dmitri 
Mendelejew. 

In der Stanford Encyclopedia of Philosophy wird die Auffassung von Naturalisten der ers- 
ten Hälfte des 20. Jahrhunderts als eine dargestellt, die den Zusammenhang von Philo- 
sophie und Wissenschaft vertritt: 


The term »naturalism< has no very precise meaning in contemporary philosophy. Its 
current usage derives from debates in America in the first half of the last century. The 
self-proclaimed »naturalists< from that period included John Dewey, Ernest Nagel, Sid- 
ney Hook and Roy Wood Sellars. These philosophers aimed to ally philosophy more 


41 Vgl. Harraway, D. (2007): Situiertes Wissen. Die Wissenschaftsfrage im Feminismus und das Privi- 
leg einer partialen Perspektive. In: Hark, S. (Hg.): Dis/Kontinuitat. Feministische Theorie, Wiesba- 
den, S. 305-322; Sonderegger, R. (2019): Vom Leben der Kritik. Kritische Praktiken — und die Not- 
wendigkeit ihrer geopolitischen Situierung, Wien. 

42 Vgl. Beckermann, A. (2021): Naturalismus. Entwurf eines wissenschaftlich fundierten Welt- und 
Menschenbilds. In Zusammenarbeit mit Peter Schulte, Paderborn. 


Henning Femmer und Alexa Lucke: Über den Nutzen des Natural Language Processing 


closely with science. They urged that reality is exhausted by nature, containing noth- 
ing supernatural, and that the scientific method should be used to investigate all 
areas of reality, including the shuman spirit«.*? 


Die allumfassende wissenschaftliche Erklärbarkeit der Welt - als eine aufphysikalischen 
und biochemischen Naturgesetzen beruhende (auch immaterielle »Dinge< wie Bewusst- 
sein, Seele und Geist) - kann als eine der Grundannahmen des Naturalismus gelten. 

In der Literatur soll sich dieses über eine sachlich beschreibende Sprache und präzi- 
se, nahezu objektive Naturbeschreibungen ausdrücken, ähnlich eines »objektiven« Blicks 
durch die Kamera, was üblicherweise als charakteristisches Kennzeichen des Naturalis- 
mus gilt. Die Erzählperspektive im Naturalismus wäre also vergleichbar mit einer pan- 
oramatischen Kamerafahrt im Film, dem alles verändernden neuen Medium dieser Zeit. 
Ebenso werden die Begriffe Natur, Kultur und Technik als Reflexionsbegriffe dieser Epo- 
che gesehen.** Das Verhältnis zur Wirklichkeit ist ein realitätsgetreues Abzubildendes, 
in welchem die Kunst die Wirklichkeit programmatisch möglichst detailgetreu nachah- 
men soll, so dass der Naturalismus laut Georg Simmel, eines Kunsttheoretikers am An- 
fang des 20. Jahrhunderts, eher »Gegenstände des banalsten Lebens wählte, an denen 
anderweitige Werte nicht so leicht oder überhaupt nicht fühlbar werden« - frei nach 
dem Motto: je »gleichgültiger der Gegenstand«, desto mehr »bloß naturhafte« und »un- 
betonte« Wirklichkeit bringe dieser im Kunstwerk zum Ausdruck.“ Paradox sei dabei 
die ausgestellte äußere Wirklichkeit, die aber im Kunstwerk wieder schöpferische Be- 
deutung erlange, indem es den Wert dieser Wirklichkeit betone.* 

Entgegen einer systematisch-epochalen Abgrenzung des Naturalismus plädiert Ingo 
Stöckmann in seinem Lehrbuch Naturalismus für den Begriff einer »Naturalistische[n] 
Moderne«.*’ Der Naturalismus sei eher als eine transitorische Epoche zu verstehen, 
denn ausgerechnet von dessen typischen Vertretern wie z.B. Gerhart Hauptmann fin- 
de sich eine erste Definition der Moderne.“ Dies spreche laut Stöckmann dafür, den 
Naturalismus also eher nicht als strukturelle Epoche, sondern eher als transitorischen 
Durchgang zwischen Realismus und Moderne wahrzunehmen, der eben nicht (nur) - 
wie beispielsweise im Französischen - gemäß des Gegensatzes zwischen naturalisme 
und réalisme einem »wissenschaftlich begründeten Wahrheitsanspruch«* diene. 


43 Papineau, D. (2016):»Naturalism«. In: Edward N. Zalta (Hg.): The Stanford Encyclopedia of Philoso- 
phy (Winter 2016 Edition) https://plato.stanford.edu/archives/win2o16/entries/naturalism/ (letzer 
Zugriff 5.5.2023) 

44 Hubig, C./Luckner, A. (2008): Natur, Kultur und Technik als Reflexionsbegriffe. In: Janich, P. (Hg.): 
Naturalismus und Menschenbild, Hamburg, S. 52-66. Weitere charakteristische Motive und Be- 
griffe im Zusammenhang mit dem Naturalismus sind die Begriffe Großstadt, Arbeiterschaft, Mas- 
se, Milieu. 

45 Simmel, G. (2008): Zum Problem des Naturalismus. In: Simmel, G.: Jenseits der Schönheit. Schrif- 
ten zur Ästhetik und Kunstphilosophie. Ausgewählt und mit einem Nachwort von Ingo Meyer. 
Frankfurt a.M., S. 295-320, S. 296. 

46  Vgl.S.296f. 

47 Vgl. Stöckmann, |. (2011): Naturalismus. Lehrbuch Germanistik, Stuttgart/Weimar. 

48 Vgl. Stöckmann: Naturalismus, S. 4ff. 

49 Stöckmann: Naturalismus, S. 7. 
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Aufgrund der Schwierigkeiten einer zutreffenden Epochisierung sei gerade der Na- 
turalismus nach Stöckmann ein Symptom für die Problematiken >literaturgeschichtli- 
cher Modellbildung überhaupt, die den »Ausdruck einer gewissen Ratlosigkeit gegen- 
über Phasen in der Literaturgeschichte« in sich trügen, »die nicht die Kohärenz einer 
Epoche aufweisen« würden und »mit konventionellen Epochenkategorien nicht in Ein- 
klang zu bringen« seien”. Der Naturalismus beispielsweise sei immer wieder als eine 
Art »Übergangsphase« bezeichnet worden, da er »vor- und rückläufige Verbindungen« 
zum Realismus und zur literarischen Moderne aufweise. Er sei einerseits 


den Kontexten seiner Entstehung nach [...] noch fest in der Programmatik und den 
Schreibweisen des »bürgerlichen< bzw. »poetischen< Realismus verankert«, anderer- 
seits bilde »er eine»erste«Moderne innerhalb eines mehrfach gestaffelten Modernisie- 
rungsprozesses, der die Moderne übergreift und in die er — ebenso wie die historischen 
Avantgardebewegungen [...] - fortwirkt.™ 


So formuliert Stöckmann die folgende These über den Naturalismus: 


Zwischen einem Terminus ante quem (Realismus 1850-1880) und einem Terminus 
post quem (reife< bzw. »klassische« Moderne ab 1900) besitzt der Naturalismus eine 
eigentümliche Zwischenidentität, die ihm alle Kennzeichen einer klar begrenzten 
Epoche nimmt und ihn vielmehr als einen mehrschichtigen Transformationsprozess 
kennzeichnet —mehrschichtig, weil er an eine eingespielte Diskurskonstellation PRea- 
lismus«) anschließt und zugleich horizontbildend für ein Modernisierungsgeschehen 
wirkt, das er selbst nicht mehr vollständig konditioniert.«°? 


Einen tatsächlich epochalen Charakter besitze eher der äußerst prominente Einschnitt 
am Ende des 18. Jahrhunderts, der auch als »Sattelzeit« (Kosellek) bezeichnet werde, mit 
seinen bis heute andauernden modernisierenden Transformationsprozessen.” 

Zur ersten Frage (FF1) in der vorliegenden Studie, ob sich naturalistische oder moder- 
ne Texte überhaupt messbar unterscheiden lassen, wäre eine zweite Hypothese, dass ei- 
ne Nicht-Messbarkeit von Unterschieden für die These von Stöckmann sprechen könnte, 
dass es sich strukturell um einen bis heute andauernden Modernisierungsprozess bzw. 
Transformationsprozess der Moderne handelt. Dafür spräche auch, dass Teilströmun- 
gen wie Ästhetizismus, Dekadenz und Fin de Siécle u.a. nicht diachron, sondern zum 
Teilsynchron überlappend miteinander aufträten, obwohl ihre (ästhetisch-literarischen) 
Programme aufgrund ihrer (wiederum als typisch modern verstandenen) Heterogenität 
inhaltlich stark voneinander abweichen. Dies entspräche übrigens auch einer Einsicht 
Georg Simmels in Zum Problem des Naturalismus, dass »l’art pour l'art und Naturalismus 
sich gerade nicht dichotomisch verhalten, sondern in der Beliebigkeit ihrer Objektwahl 


50 Alle Zitate in Stöckmann: Naturalismus, S. 3. 
51 Stöckmann: Naturalismus, S. 3. 

52 Stöckmann: Naturalismus, S. 3. 

53 Vgl. Stöckmann: Naturalismus, S. 3. 
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gleichursprünglich«°* seien. Auch das mimetische Abbilden des Wirklichen ist selbstver- 
ständlich mit einem ästhetischen Programm verbunden und würde so auch als künstle- 
risches Prinzip durch die naturalistische »natürliche« Komposition hindurch scheinen. 


2.1.1 Gerhart Hauptmann: Bahnwärter Thiel 

Seine Erzählung Bahnwärter Thiel gilt als »die« paradigmatische Erzählung des Naturalis- 
mus.” Aus der autobiographischen Retrospektive um 1900 scheint er allerdings - neben 
Michael Georg Conrad oder Arno Holz - seine frühen naturalistischen Bestrebungen bis 
in die 1890er Jahre, Distanz gegenüber einer ästhetischen Moderne zu schaffen, selbst 
zu relativieren und zu rehistorisieren.° Als »novellistische« Studie von 1888 löst sich der 
literarische Text von realistischen Erzähltraditionen nur bedingt ab, in der sich novel- 
lentypische Traditionen wie die geschlossene Form mit Höhe- und Wendepunkten sowie 
der mehrfachen Vorausdeutungsmotive auffinden lassen.” Zugleich finden sich schon 
»Schlagworte der naturalistischen Poetik«: 


Gunther Mahals Wort vom Finde-Zwang naturalistischer Kategorien (Mahal 1993, 207) 
ist in diesem Zusammenhang überaus zutreffend. In der Tat sind die bemühten Kon- 
zepte und Einflüsse -»Urdrama« (vgl. Martini 1964 [.]), Experimentalpoetik (vgl. Mahal 
1993), Determinismus (vgl. Kramer 1980 [...]; Poppe 1988 [...]), Bachofen-Rezeption (vgl. 
Post 1979) - durch den Text nicht gedeckt (zumal Hauptmanns Rezeption der Schriften 
Johann Jakob Bachofens oder die Konzeption des >Urdramas« in eine spätere Werkpha- 
se gehören). So ist der Text vielmehr daraufhin zu lesen, wie er seine eigene erzähle- 
rische Modernitat erprobt.«° 


Typisch »moderne ästhetische, sprachliche und narrative Verfahren seien der unzuver- 
lässige Erzähler, die Verwendung von erlebter Rede, nicht übereinstimmende Erzähl- 
zeit und erzählte Zeit wie in Zeitraffern oder -dehnungen, (charakterliche) Ambivalen- 
zen der Figuren, Nicht-Übereinstimmung von innerem Erleben und äußerer Wirklich- 
keit - letztere soll allerdings noch durch einen scheinbar auktorialen Erzähler verbürgt 
werden. Denn im Grunde verschmelzen in der Erzählung aber Traum, inneres Erleben 
und Wirklichkeit miteinander, was außerdem auf tragische Weise den Tod des Sohnes 
herbeiführt.”” Dies alles seien Zeichen und Argumente für die Erprobung von erzähleri- 
scher Modernitat.®° Dennoch ist die Erzählung in den Kontext anderer naturalistischer 


54 Meyer, |. (2008): »Jenseits der Schönheit«. Simmels Ästhetik -originärer Eklektizismus? Nachwort. 
In: Georg Simmel: Jenseits der Schönheit, S. 399-437, S. 424. 

55 Seine mimetisch-abbildenden Naturbeschreibungen gründen wohl tatsächlich auf eigenen Erfah- 
rungen und Betrachtungen im Riesengebirge im schlesischen Schreiberhau, die in den Schreibpro- 
zess eingeflossen sein sollen — ebenso wie bei Hermann Hesse oder Rainer Maria Rilke. Die räum- 
lichen und sozialen Konditionen halten also unmittelbaren Einzug in den kreativen Schaffenspro- 
zess (Vgl. Carolin Vogel: Zurück in die Zukunft: Schreiben auf dem Dorf. Literarische Stadtflucht 
um 1900, S. 464ff.). 

56 Vgl. Stöckmann: Naturalismus, S. 1. 

57 Vgl. Stöckmann: Naturalismus, S. 160. 

58 Vgl. Stöckmann: Naturalismus, S. 160. 

59 Vgl. Stöckmann: Naturalismus, S. 160. 

60 Vgl. Stöckmann: Naturalismus, S. 160. 
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Erzählungen eingebettet, die im Zentrum einen Unfall im Umfeld einer industriell-tech- 
nisierten Welt thematisieren.‘ »Technische Euphorie und katastrophische Verunsiche- 
rung der Zeit bilden mentale Signaturen der Zeit.«” 


2.1.2 Arno Holz/Johannes Schlaf: Papa Hamlet 

Das Duo Arno Holz und Johannes Schlaf publizieren 1892 »>Gedankenexperimente< in ih- 
rer »konsequent« naturalistischen Gemeinschaftsproduktion« Neue Gleise und 1933 in ih- 
ren Dingsda-Skizzen, die bereits eine Abkehr vom Realismus, insbesondere des Milieu- 
realismus, zeigen.“ Diese Neukonzeption erscheint als eine Art Entfaltung und allum- 
fassende Übertragung der Darwinschen Lehre, nach der alles aufeinem (Natur-)Gesetz 
zu beruhen scheint.‘ 

Das gemeinsame Prosa-Werk von Arno Holz und Johannes Schlaf (alias Bjarne P. 
Holmsen) Papa Hamlet konnte vielleicht deshalb so einen kanonischen Erfolg als Mus- 
terexempel für die Prosa des Naturalismus verbuchen, weil sich hier ihr ästhetischer An- 
spruch eines konsequenten Naturalismus« in der so gesehenen kongruenten Umsetzung 
vollziehe, bei der es um die qualitative Frage nach den literarischen Verfahren des Natu- 
ralismus und nicht um die Auswahl des Stoffs gehe.“ In der Prosa-Skizze Papa Hamlet 
(1889) seien außerdem die Kennzeichen einer positivistischen Ästhetik nach Holz’ 1891 er- 
schienener Schrift Die Kunst. Ihr Wesen und ihre Gesetze enthalten, die rekurrierend auf 
John Stuart Mills System der deductiven und inductiven Logik (dt. 1877) eine »durchgängige 
Gesetzmäßigkeit« in allen weltlichen und dinglichen Bezügen proklamiere.®° 

Als (naturalistische) Verfahren” und Techniken dieser positivistischen Ästhetik zählt 
Stöckmann die folgenden auf: Sekundenstil, der sich an der segmentierenden Moment- 
fotografie und quasi-fotografischen Beschreibungspräzisionen orientiere, wie die qua- 


61 Vgl. Stöckmann: Naturalismus, S. 161. Stöckmann erwähnt in diesem Zusammenhang die Erzäh- 
lung Ein Unfall (1891) von Philipp Langmann, was zeittypisch die Gefahren einer Arbeitswelt in ei- 
ner industriell-technisierten Risiko- und gleichzeitig Versicherungsgesellschaft repräsentiere. 

62 Stöckmann: Naturalismus, S. 161. 

63 Vgl. Stöckmann: Naturalismus, S. 161. 

64 Vgl. Stöckmann: Naturalismus, S. 161. 

65 Vgl. Stöckmann: Naturalismus, S. 164f. Darauf folgte ein mehrjähriger intensiver Streit zwischen 
den beiden um die Urheberschaft des Konzepts, sogar mit anschließenden Aufenthalten in Ner- 
venheilanstalten (ebd., S. 163). 

66 Vgl. Stöckmann: Naturalismus, S. 164. 

67 Die »Verfahren der Momentaufnahme und der betrachterunabhängigen Farbwiedergabe [...] im 
Zeichen eines gesteigerten Realismus- oder Objektivitätsanspruchs]« seien künstlerische Verfah- 
ren, die an eine »originäre Programmatik« bei französischen Impressionisten >in enger Beziehung 
zu Zola: anschließen. In dieser Tradition stehe laut Peter Sprengel ebenfalls Papa Hamlet: »Der- 
gleichen läßt sich etwa in [...] Holz’ späteren Phantasus-Gedichten (vom Kritiker Franz Servaes in 
der Wiener Zeit 1899 ausdrücklich als »impressionistische Lyrik: begrüßt), aber auch in der experi- 
mentellen Prosa des Papa Hamlet von Holz und Schlaf beobachten. Damit wird eine Ikone der Lite- 
raturgeschichte des Naturalismus zum Kronzeugen für eine Stilrichtung, die herkömmlicherwei- 
se meist als subjektive Gegenbewegung zum Naturalismus, als Spezifikum etwa der Wiener (im 
Gegensatz zur Berliner) Moderne aufgefaßt wurde.« (Sprengel, P (1998): Geschichte der deutsch- 
sprachigen Literatur 1870-1900. Von der Reichsgründung bis zur Jahrhundertwende. Band IX,ı der 
Geschichte der deutschen Literatur von den Anfängen bis zur Gegenwart, begründet von Helmut 
de Boor und Richard Newald, München, S. 114.) 
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si-phonographische Aufzeichnungspräzision bei Geräuschen wie Regentropfen. Die im 
Sekundenstil zur Deckung gebrachte Erzählzeit und erzählte Zeit sollen Authentizitäts- 
effekte®® erzeugen. Weiter führt Stöckmann die weitgehende Tilgung der auktorialen 
zugunsten der personalen Erzählsituation auf, die Verwendung von erlebter Rede und 
innerem Monolog, Annäherungen an den dramatischen Modus (szenisches Erzählen) 
wie in den Novellen des Wiener Moderne-Autors Arthur Schnitzler.“ 

Die Sprachkrise bzw. die Zweifel an der Referenz der Sprache drückt Holz auf eine 
Weise aus, die ebenfalls an die Wiener Moderne erinnert: »Bei jedem Satz, den ich nie- 
derschrieb, gähnten um mich Abgründe, jede Wendung [...] schien mir ein Ungeheuer, 
jedes Wort hatte die Niedertracht, in hundert Bedeutungen zu schillern, jede Silbe gab 
mir Probleme auf.«’° 

Holz’ Begriff der »Wortkunst« weist also nicht die einzige »Spur< zur Moderne” auf, je- 
doch wurden diese lange Zeit durch die erfolgreich kanonisierten ästhetischen Program- 
me des Naturalismus in der Literaturgeschichtsschreibung überlagert.” Eine »enge Ver- 
kopplung von signifizierenden und signifikativen Verfahren: und damit die »Begrenzung 
von Verweisungsüberschüssen« einer prinzipiell unendlichen polysemantischen literari- 
schen Sprache sei nach Stöckmann vielleicht das einzige qualitative Kriterium, das den 
Naturalismus von der Moderne programmatisch differenziere.” Eine Qualitatsmessung 
in Bezug auf sprachliche (Un-)Eindeutigkeit durch das NLP-basierte Tool müsste also bei 
den naturalistischen Texten besser ausfallen, aufgrund der Reduktion von referentiellen 
Mehrdeutigkeiten und vagen Ausdrücken - zumindest theoretisch, da es sich hierbei in 
erster Linie um einen ästhetisch-programmatischen Anspruch handelt.” 


2.2 Moderne als Makroepoche der Gesellschaft 


Der von Andreas Reckwitz und Hartmut Rosa im Titel ihres gemeinsamen Buches ver- 
wendete Begriff der »Spätmoderne« verweist in diesem Zusammenhang auf eine noch 
persistierende Moderne, wenn auch in ihrem (relativen) Ausklang begriffen.” Moder- 
ne steht für Reckwitz — wie in den (soziologischen) Traditionen Luhmanns und Kosel- 
lecks - für den Makroabschnitt seit der zweiten Hälfte des 18. Jahrhunderts und für die 
»bis in unsere Gegenwart andauernde Transformation nahezu aller Komplexe sozialer 


68 Vgl. Stöckmann: Naturalismus, S. 165. 

69 Vgl. Stöckmann: Naturalismus, S. 164ff. 

70 Holz, A. (1925): Das Werk von Arno Holz. Bd. X: Die neue Wortkunst. Eine Zusammenfassung ihrer 
ersten grundlegenden Dokumente, Berlin, S. 341. 

71 Henne, H. (2010): Sprachliche Spur der Moderne. In Gedichten um 1900: Nietzsche, Holz, George, 
Rilke, Morgenstern, S. 46ff., 134. 

72 Vgl. Stöckmann: Naturalismus, S. 166. 

73 Vgl. Stöckmann: Naturalismus, S. 166. 

74 Die Annahme, anhand von statistischen Verfahren wie den MFW (=most frequent words) den Stil 
von Literatur und anhand von NLP-basierten Verfahren die Unterschiede zwischen literarischen 
Texten und Epochen messen zu können, erinnern nicht zuletzt an die naturalistisch-ästhetischen 
Grundannahmen von Schlaf, anhand von (naturwissenschaftlichen) Lichtexperimenten das Wesen 
der Literatur bestimmen zu können (vgl. Stöckmann: Naturalismus, S. 166). 

75 Vgl. Reckwitz, A., Rosa, H. (2021): Spätmoderne in der Krise. Was leistet die Gesellschaftstheorie? 
Berlin. 
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Praktiken und damit der Gesellschaft insgesamt«.’° Die gesamte Passage, in der diese 
Definition eingebettet ist, lautet so kurz wie bündig: 


Dass im 18. Jahrhundert in der westlichen Hemisphäre eine tiefgreifende, bis in unsere 
Gegenwart andauernde Transformation nahezu aller Komplexe sozialer Praktiken und 
damit der Gesellschaft insgesamt einsetzt, ist die Kernannahme der soziologischen 
Theorie der Moderne.” 


Den Zeitraum, den Reckwitz für seine Beobachtungen wählt, variiert zwischen den letz- 
ten 250 und 500 (!) Jahren, »wenn man die Frühe Neuzeit miteinbezieht«.”® Sein Ziel ist 
es, diejenigen »Welten« zu identifizieren, die durch die »Praxis der Modern« erzeugt und 
die sich »strukturelk von der sozialen Welt des Homo sapiens in den 150 000 Jahre zu- 
vor unterscheiden würden”? - es handelt sich hier also um einen noch weiter gefassten 
Begriff der Moderne, der sogar die in den Geisteswissenschaften als gesichtert geltende 
Disruption am Ende des 18. Jahrhunderts in Frage stellt. 

Während Reckwitz eine spezifische »Praxis< der Moderne, die grundsätzlich als 
Geschehen des Konflikts und des Widerstreits lesbar werde, in den Mittelpunkt seiner so- 
ziologischen Überlegungen über einen historischen Wandel zur modernen Gesellschaft 
stellt, widmet sich Rosa einem anderen Projekt: dem Versuch einer systematischen 
Theorie der modernen Gesellschaft über den Begriff der »Sozialformation (oder Ge- 
sellschaft)«.®! Diese wird insbesondere durch das Weltverhältnis, das eine Gesellschaft 
ausmacht, und den damit verbundenen Wünschen, Ängsten und durch eine moralische 
Landkarte konstituiert.** Die moderne Sozialformation analysiert er als ‚dynamische 
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Stabilisierung: und »Weltreichweitenvergrößerung“” sowie diagnostiziert und kriti- 


siert diese als »Desynchronisation« und »Entfremdung«.°* Für die Entwicklung einer 


76 Reckwitz/Rosa: Spätmoderne in der Krise, S. 69. 

77 Reckwitz/Rosa: Spätmoderne in der Krise, S. 69. 

78  Reckwitz/Rosa: Spätmoderne in der Krise, S. 69. 

79 Vgl. Reckwitz/Rosa: Spätmoderne in der Krise, S. 69. 

80 Wie zusehen bei politischen, industriellen und technologischen Revolutionen, Prozessen der Ver- 
wissenschaftlichung oder der Demokratisierung, »Bewegungen der Aufklärung und Säkularisie- 
rungs, Globalisierung, Urbanisierung oder Imperialismus, vgl. Reckwitz/Rosa: Spätmoderne in der 
Krise, S. 69. 

81 Vgl. Reckwitz/Rosa: Spätmoderne in der Krise, S. 181. »Unter einer Sozialformation verstehe ich 
einen formativen Zusammenhang zwischen einem partikularen kulturellen Horizont, der durch 
eine moralische Landkarte[.] gekennzeichnet ist, welche definiert, was erstrebenswert und was zu 
vermeiden ist und infolgedessen Antriebsenergien in Form von Hoffnungen, Sehnsüchten, Wün- 
schen und Verheißungen und ebenso von Ängsten, Befürchtungen und Bedrohungen erzeugt, und 
einem je bestimmten strukturellen beziehungsweise gesellschaftlichen Institutionensystem [...], 
das die materielle Reproduktion sichert. In ihrem Zusammenspiel bringen diese beiden Kompo- 
nenten zugleich auch eine je spezifische Subjektform und insbesondere ein je spezifisches Welt- 
verhältnis hervor« (ebd.). 

82 Vgl. Reckwitz/Rosa: Spätmoderne in der Krise, S. 181ff. »Moralisch« bedeutet im Zusammenhang 
einer Sozialformation »kognitiv-evaluativ«. Vgl. ebd., S. 181. Vgl. auch Rosa, H. (1998): Identität und 
kulturelle Praxis. Politische Philosophie nach Charles Taylor, Frankfurt/New York, S. 110-118. 

83 Vgl. Reckwitz/Rosa: Spätmoderne in der Krise, $. 181 

84 Vgl. Reckwitz/Rosa: Spätmoderne in der Krise, S. 201. 
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systematischen und kritischen Gesellschaftstheorie ist das Auffinden und die »Analyse 
der strukturellen und kulturellen Formationsmerkmale«° für ihn unerlässlich. Unter 
dem Stichwort »dynamischer Stabilisierung: subsumierten sich prototypische Struk- 
turmerkmale moderner Gesellschaften wie Beschleunigung, ökonomisches Wachstum, 
Produktionssteigerung, Innovationsverdichtung (als Innovationen >in immer kürzeren 
Zeitabständen.) als strukturelle Notwendigkeit der Sozialformation der Moderne.®° 
Ohne ökonomisches Wachstum beispielsweise geraten gesellschaftliche Systeme (durch 
dominoartige Folge-Effekte) in die Krise, weshalb diesem »Steigerungsimperativ der 
Moderne in kapitalistisch geprägten Sozialformationen nicht zu entkommen sei.’ 
Die Bemessungsgrundlage (Rosa nennt dies »Entwicklungsindex«) der modernen Ge- 
sellschaft sei demnach die Berechnung der »Vergrößerung der Weltreichweite<, spe- 
zifischer definiert als »Verheißung einer (individuellen wie kollektiven) Vergrößerung 
der Weltreichweite beziehungsweise der stetig gesteigerten kognitiven, technischen, 
ökonomischen und politischen Verfügbarmachung von Welt und Leben«.*® 


2.3 (Literarische) Moderne als Mikroepoche 


Die »Literarische Moderne als Epoche und die frühen avantgardistischen Bewegungen 
am Anfang des 20. Jahrhunderts wie Expressionismus und Dadaismus zeichnen sich ins- 
gesamt durch eine Krise der (sprachlichen) Repräsentation und durch ästhetische Inno- 
vationen aus, außerdem im Zusammenhang mit einer fragmentierten Weltsicht, Desyn- 
chronisationen, Subjektdissoziation bzw. Entindividuation sowie ein Interesse für das 
»Mögliche«.°” Experimentelle Techniken charakterisieren die ästhetischen Programme 
des 20. Jahrhunderts — angefangen vom dadaistischen Manifest und seinen Unterzeich- 
nern über das offene Kunstwerk bei Eco bis zur expliziten (post-)modernen Forderung 
nach experimenteller Kunst und essayistischer Philosophie bei Lyotard.?° Selbstreferen- 
tialität, mehrwertige Logiken oder simultan gesetzte widerstreitende Positionen wer- 
den ad extremum geführt. Außerdem sind ästhetische Verfahren der Metafiktionalität, 
die den fiktionalen Status des Erzähltextes selbstreflexiv mitverhandeln, nach Mirjam 
Sprenger ein charakteristisches Merkmal des modernen Erzählens. Sie definiert den Be- 
griff mit Gero Wilperts Sachwörterbuch der Literatur” folgendermaßen: 


Metafiktion [...], Sammelbezeichnung [.] für erzählende Texte, die selbst bewußt die 
Erzählfiktion bzw. Leserillusion durchbrechen, den Kunstcharakter des Werkes spie- 
lerisch blofstellen und ihrerseits durch Analysen und Kommentare des fingierten Er- 


85  Reckwitz/Rosa: Spatmoderne in der Krise, S. 185. 

86 Vgl. Reckwitz/Rosa: Spätmoderne in der Krise, S. 186. 

87 Vgl. Reckwitz/Rosa: Spatmoderne in der Krise, S. 186f. Diese ökonomische Tätigkeit sei Teil der en- 
dogenen Systemlogik selbst und nicht auf äußere Faktoren wie Ressourcenknappheit oder militä- 
rische Bedrohung von außen rückführbar (vgl. ebd.). 

88 Reckwitz/Rosa: Spatmoderne in der Krise, S. 195. 

89  Kimmich, D. (2016): Moderne. In: Nübel/Wolf: Robert-Musil-Handbuch, S. 35-48, S. 37. 

90 Vgl. Lyotard, J.-F. (1986): Philosophie und Malerei im Zeitalter ihres Experimentierens, Berlin. 

91 Vgl. Wilperts, G. (1989): Sachwörterbuch der Literatur, Stuttgart, S. 567f. 
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zählprozesses thematisieren, das Unzureichende der Erzählkonventionen aufdecken 
und die Frage nach dem Verhältnis von Fiktion zur Realität neu stellen«.?? 


Ein Unterschied zum Naturalismus sei nach Sprenger das Verhältnis der Erzählung 
zur Wirklichkeit: Präge den Naturalismus die Fiktion als quasi-mimetisches Abbild der 
Wirklichkeit, stellten moderne Texte dieses naturalistische Verhältnis in Frage, so dass 
in diesem Punkt durchaus eine Disruption zum Naturalismus messbar sein müsste: 


Zumindest war und ist Fiktion eine Metapher für die jeweilige Geisteshaltung ihrer 
Epoche: im Naturalismus war Fiktion ein Abklatsch der Wirklichkeit, im Realismus die 
freie Wiedergabe der Wirklichkeit, im Idealismus die Idealisierung der Wirklichkeit 
und in der Romantik wurde die Fiktion als Poetisierung der Wirklichkeit gestaltet. 
Doch eines haben all diese Darstellungsformen der Wirklichkeit (was immer diese ei- 
gentlich ist!) gemeinsam: eine verbindende Vorstellung von Wirklichkeit, ihre Autoren 
wußten, auf welchen Wirklichkeitsbegriff sie referierten. Diese Bezugsgröße wurde 
im Laufe des 20. Jahrhunderts, besonders in der zweiten Hälfte massiv verstärkt, im- 
mer unkonkreter, weniger faßbar. In unserer heutigen computerisierten Welt werden 
bereits virtuelle Welten erschaffen; dies bedeutet, daß eine in ein Computerpro- 
gramm umgesetzte Wirklichkeit, zu einer von unserer sinnlich wahrnehmbaren Welt 
nicht trennbaren Realität wird. Nicht umsonst heißt diese Ausdrucksform »virtual 
reality«: dies bedeutet, hier wird eine faktische Realität vorgestellt.” 


Die literarische Moderne ist ebenso geprägt von internationalen avantgardistischen Be- 
strebungen, in Europa, aber auch in Russland, deren Hauptmoment eine Sprachkrise 
bildet. Es gibt künstlerische Mitwirkungen in urbanen Gruppierungen wie in Wien, aber 
auch in Prag, und künstlerische Manifeste um 1900. In diesem geschichtlichen Kontext 
zu nennen ist hier das »Habsburger Reich, dessen Bürger Kafka bis zu dessen Auflösung 
am Ende des ersten Weltkrieges war, wohl entscheidend für die literarischen, philoso- 
phischen und artistischen Formen der Moderne«.”* 

Auf der Ebene der sprachlich-stilistischen Mittel finden in die Richtung moderner 
Romane und Erzählungen Transformationen statt: extreme und individuelle Vielfalt der 
Erzähltechniken und sprachlichen Stile, von indirekter Rede zu mehr direkter bzw. wört- 
licher Rede (aber auch schon bei Arno Holz im Naturalismus). Es findet um 1900 ein Per- 
spektivwechsel vom auktorialen Erzähler und Vermittler der Erzählung zu einer stärke- 
ren Innensicht der Figuren statt, Umgangssprache, innere Monologe, Bewusstseinsströ- 
me, Essays und Aphorismen prägen die neuen literarischen Formen und Genres. Mo- 
derne Romane und Dramen ziehen in der zeitgenössischen Kritik teilweise Debatten 
um (sexuelle) Skandale nach sich (z.B. Musils erzählerisches »Diptychon« Vollendung der 
Liebe und Die Versuchung der stillen Veronika im Band Vereinigungen von 1911 oder Schnitz- 
lers Reigen von 1903, der sogar zeitweise verboten wurde). Das in einem neuen extremen 


92 Vgl. Sprenger, M. (1999): Modernes Erzählen. Metafiktion im deutschsprachigen Roman der Ge- 
genwart. Stuttgart/Weimar, S. 129. Der Begriff geht auf einen Essay Philosophy and the Form of Fiction 
(1970) von William H. Gass zurück (vgl. ebd., S. 131). 

93 Sprenger: Modernes Erzählen, S. 130. 

94 Spector: Kafka und die literarische Moderne, S. 181. 
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Ausmaß erfahrene Befreien, Außerkraftsetzen und Überwinden von allen traditionell re- 
levanten und geschlossenen gesellschaftlichen, sprachlichen, ästhetischen und literari- 
schen (Sinn-)Kategorien könnte als typisch modern gelten. Obwohl viele Definitionen 
existieren, 


lässt sich kaum eine eindeutige Definition der literarischen Moderne zusammenstel- 
len. Sowohl das Infragestellen akzeptierter Auffassungen von Form und Ästhetik als 
auch die Ambivalenz gegenüber Tradition und Geschichte charakterisieren viele Defi- 
nitionsversuche. Manche Kritiker betonen die in modernen Werken behandelten The- 
men der Moderne, davon besonders urbane Themen: Im Fall der mitteleuropäischen 
Moderne haben viele Werke den Topos der subjektiven Krise — Ich- oder Bewusstseins- 
krise.” 


2.3.1 Franz Kafka 

Nach Gilles Deleuze und Felix Guattari (1976) schreibe Kafka »in seiner eigenen Literatur 
und seiner eigenen Sprache (z.B. dem Prager Deutsch) als »mineure< und erricht[e] von 
dieser »falschen« Prämisse ein Gebäude aus Literatur-als-Politik, das auf dem Einsatz ei- 
ner (kleinen oder Minderheiten-)Sprache basier[e]«.” Hierbei beziehen sie sich auf ei- 
nen Tagebucheintrag Kafkas, der die Skepsis gegenüber Sprache und Worten als solchen 
zum Ausdruck bringt. Der sehr individuelle Sprach- und Schreibstil Kafkas könnte al- 
so letztlich auf seiner Trennung von einer gelebten deutschen Sprache beruhen, denn 
in Prag verwendet Kafka die deutsche Sprache in einem vom »Mehrheitsdiskurs« abge- 
koppelten Status - einem Status von »Deterritorialisierung«” und »Denaturalisation«® 
einer Minderheiten-Sprache, die ihm selbst entfremdet war. Die Debatte über Kafkas 
Texte als typische Repräsentanten einer literarischen Moderne muss diese Tatsache in 
ihre Erwägungen miteinbeziehen, denn als »große« (auch politische) Literatur mit eige- 
ner Ästhetik erscheint sie auch insofern, als man diesen Umstand, dass Kafka die eigene 
Sprache nur in einem geerbten, nicht lebendigen Zustand verwendet, ignoriert. 


Die Debatte über die Prager deutsche Sprache und ihre Beziehung zu Kafkas moder- 
nem Beitrag fördert eine Spannung zwischen Literatur und Geschichte in dem Sinne, 
dass diejenigen, die in der klaren Präzision von Kafkas Prosa das Zeugnis einer mo- 
dernen Ästhetik erkennen, die literarischen Historiker verkennen, die über das lokale 
Wissen um die linguistischen Kontexte vor Ort verfügten. Letztere kennzeichneten das 
linguistische Problem des künstlich isolierten deutschsprachigen Bourgois [...] als ein 
verkümmerndes Gliedmaß. Anstatt in einer Sprache zu schreiben, die bewusst so kon- 
struiert war, dass sie perfekt und präszise, wenn auch jenseitig und entfremdet war, 
schrieb Kafka in einer Sprache, die aufgrund ihres unnatürlichen Zustandes unvoll- 
kommen war. Diese zwei Positionen -die hier um des Arguments willen etwas zerstü- 
ckelt wiedergegeben wurden - könnten auch als entweder historische These (als These, 


95 Spector: Kafka und die literarische Moderne, S. 183. 
96 Spector: Kafka und die literarische Moderne, S. 186. 
97 Spector: Kafka und die literarische Moderne, S. 186. 
98 Spector: Kafka und die literarische Moderne, S. 186. 
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die sich auf den Zustand von Kafkas Sprache, die durch einen degenerierten Zusam- 
menhang zwischen Nation/Territorium bestimmt wird, konzentriert) oder als literari- 
sche These (eine Lesart der literarischen Sprache im Hinblick auf ästhetische Operatio- 
nen und Wirkungen) gelesen werden.” 


Aufgrund der Möglichkeit zweier widersprüchlicher Lektüren plausibilisiert sich also ei- 
ne Analyse mit einer NLP-basierten Methode. Anhand der (voreingestellten) sprachli- 
chen Filtern des Tools könnte quantitativ überprüft werden, ob Kafka aufgrund der Tat- 
sache, in einer sprachlichen Minderheit zu leben, über einen äußerst individualsprach- 
lichen Wortschatz und eine eigene Sprache verfügt (historische These) oder ob seine Texte 
sprachlich und stilistisch eher den Texten anderer Autor:innen der Moderne ähneln (li- 
terarische These). 

Denkbar wäre in diesem Zusammenhang die Möglichkeit, dass Kafkas Sprache sich 
in den präzisen und eindeutigen Beschreibungen einer Berichtssprache oder einer frü- 
heren Sprachstufe abarbeitet, die seine Texte in die Nähe von früheren naturalistischen 
Sprachstilen rücken würden. Kafka würde demnach die Präzision deutscher Bürokratie- 
und Amtssprache als Hochsprache im Habsburger Reich maßgeblich auch auf die Lite- 
ratur anwenden, weiles diejenige Sprache war, die ihm in sehr begrenzter, unnatürlicher 
und entfremdeter Form zur Verfügung stand, wodurch der »kafkaeske« Effekt vielleicht 
erklärbar würde. 

Die Beziehung zwischen literarischer Moderne und Geschichte ist eine Relationie- 
rung, die Spector im Anschluss an Paul de Mans Kategorien der »Literary History« und 
»Literary Modernity« im Rahmen seiner Analyse von Kafkas Modernismus vorschlägt.'°° 
Diese betrifft konkret die Relation zwischen historischer Wahrheit und ihren inhaltli- 
chen Interpretationen, die auch thematisch und in metafiktionalen Reflexionen in Kaf- 
kas Texten zu finden sind. 

Für die literarische These, zur literarischen Moderne zu gehören, spräche bei Kafka 
insbesondere der Status der Metafiktionalität bei Themen der sich verselbständigenden 
Deutungen, der Exegese (Vor dem Gesetz)'", durch das Publikum beim Hungerkünstler 
(Erstes Leid), der Deutung und Auslegung (Eine kaiserliche Botschaft) und seiner damit ver- 
bundenen programmatischen Hermeneutikkritik." Der oben genannte paratextuelle 
Tagebucheintrag steht in der Kafka-Forschung dabei selbst häufig für die »offenkundige 
Missdeutung«'” der Sprache an sich, nicht unbedingt für die Missdeutung des ihm 
zur Verfügung stehenden Minderheiten-Deutsch. Der »offenkundigen Missdeutung« 
kommt in dieser Hinsicht traditionell eine tragende Bedeutung zu, geht es doch um 
die Kritik exegetischer und hermeneutischer Auslegungspraktiken, welche Kafka in 


99 Spector: Kafka und die literarische Moderne, S. 185. 
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101 Vgl. Engel, M. (2010): Der Process. In: Engel, M./Auerochs, B.: Kafka-Handbuch. Leben — Werk — 
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seinen Texten selbstreflexiv anwendet und daher häufig verschiedene Versionen ei- 
ner Erzählung darbietet, um die Vieldeutigkeit der Sprache zu illustrieren. Es geht 
in seinen Erzählungen häufig um Prozesse von tradierten Mythen- und Legendenbil- 
dungen (Forschungen eines Hundes), experimentelle und illustrative Erzähltechniken und 
Perspektivwechsel (Auf der Galerie), Überlieferungen und Missverständnisse sowie eine 
Vielzahl von Erklärungsmodellen, die insgesamt überzeichnet und überspitzt ins Absur- 
de führen, um die diskursiven Erklärungsansprüche, -kontexte und hermeneutischen 
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Interpretationsmodelle zu ironisieren. Die »Frage der Deutungen«’™ von Kafkas Texten 


ist bis heute ungeklärt.'” 
Die hermeneutischen Deutungen bzw. die anti-hermeneutischen Lektüren der Er- 


zählung Vor dem Gesetz (1915)'°° 


, auch als Türhüterlegende oder -parabel bekannt, haben 
in der Literaturwissenschaft sogar eine methodenkonstituierende Bewandtnis und Ge- 
schichte. Kafka schreibt in seinem Tagebuch von der »Exegese« der Legende (zwischen 
Josef K. und dem Geistlichen).'°” Die (eigenen) Schreibprozesse seien nach Jahraus im 
Anschluss an Neumann für die Verfassung von Kafkas Texten maßgeblich.'°® Diese Er- 
zählung bekommt in Derridas differance-Theorie überdies einen zentralen exemplifizie- 


renden Stellenwert: 


Kafkas Erzählung aus den >einleitenden Schriften zum Gesetz«, die Derrida nach der 
im Landarzt-Band veröffentlichten, mit dem Titel Vor dem Gesetz versehenen Fassung 
zugrunde legt, wird in Derridas Lektüre zu einer knappen, aber mustergültigen Bestä- 
tigung der Dekonstruktion avant la lettre. Alle zentralen Begriffe der Dekonstruktion — 
Aufschub, Äußerlichkeit, Ursprungslosigkeit etc. — findet Derrida bereits in Kafkas klei- 
nem Text am Werk.’ 


Kafkas kleiner parabolischer Text liefert, so Derrida, das Extrembild eines literarischen 
Diskurses, der durch kein noch so gelehrtes philosophisches oder psychoanalytisches 
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106 Erzählungaus dem Romanfragment Der Proceß, das»gewissermaßen nichts weiter als Ausweitung 
einer Parabel Vor dem Gesetz« gesehen wird, als »Geschichte vom vergeblichen Bemühen, Einlass 
in das »Gesetz« zu erhalten« (Hiebel, H. H. (2008): Der Proceß/Vor dem Gesetz. In: Jagow/Jahraus: 
Kafka-Handbuch, S. 456-476, S. 456). Nach Peter-André Alt enthält diese Erzählung wesentliche 
Aspekte einer Autobiographie Kafkas: »K.s Geschichte ist der Traum von der Schuld - ein Angst- 
traum, der sich in den imaginären Räumen einer befremdlichen juristischen Ordnung als Wider- 
schein psychischer Zustände abspielt« (Alt, P-A.: Franz Kafka. Der ewige Sohn. Eine Biographie. 
München 2005, S. 391). 

107 Engel, M.: Der Process, S. 200. 

108 Vgl. Jagow, B. v.: Der Landarzt-Band. In: Dies./Jahraus: Kafka-Handbuch, S. 505-517, S. 504. Vgl. zur 
Druckgeschichte Neumann, G.: Schrift und Druck. Erwägungen zur Edition von Kafkas Landarzt- 
Band. In: Zeitschrift für deutsche Philologie 101 (1982), S. 115-139. 

109 Kremer: Kafka und die Hermeneutikkritik, S. 348. 
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Wissen aufzulösen ist. [...] Fluchtpunkt von Derridas anti-hermeneutischer Lektüre der 
Erzählung Kafkas ist die Einsicht in den Verzicht auf oder die Abwesenheit von Reprä- 
sentation: In ihr wird kein Gesetz und keine Welt repräsentiert, sondern der Text selbst 
ist das Gesetz. Und genau hierin liegt der Grund für das, was Derrida seine Unlesbar- 
keit nennt [..]:»Unlesbarkeit des Texten, wenn man darunter genau die Unmöglichkeit 
verstehen will, in der auch wir uns befinden, zu seinem eigentlichen Sinn Zugang zu 
finden, dem vielleicht konsistenten Gehalt, den er eifersüchtig zurückhält [...]«.'"° 


Es werden aus den hier skizzierten Gründen mehrere Texte Kafkas in das Programm 
eingegeben, um etwaige Besonderheiten einzelner Texte Kafkas wie bei Vor dem Gesetz, 
auszuschließen. Es soll also eruiert werden, ob die automatisierte Analyse zu dieser 
Fragestellung, also ob man Kafka einer der beiden Epochen zuordnen könnte, Indizien 
i.S.v. Daten beitragen kann. Die Erzählungen Vor dem Gesetz, Ein Traum und Ein Landarzt 
entstammen dabei dem zu Lebzeiten noch veröffentlichten Landarzt-Band, die Erzäh- 
lung Erstes Leid ist aus seinem posthum erschienen Hungerkünstler-Band. Ein Traum 
wird als seine persönliche Auseinandersetzung mit der jüdischen Religion gesehen, in 


der ein Künstler als Schreiber agiert™ 


, und rekurriert außerdem auf die Traumlogik 
Sigmund Freuds (Die Traumdeutung), ähnlich wie Arthur Schnitzler in seiner Traumno- 
velle. Traum, Kunst, Schrift und Tod bzw. Künstlertum werden in einen Bedingungs- 
und Entstehungszusammenhang von Literatur und Kunst gebracht, auch aufgrund 
von bestimmter zeitlicher Chronologie in der Erzählung."* Eine ähnliche Traum- und 
Zeitlogik Strömung.) spiegele sich auch in der Erzählung Ein Landarzt wieder, die von 


einem »Triebgeschehen« und »Begierde« geprägt sei.” 


2.3.2 Robert Musil 

Die Zeit destechnologischen und maschinellen Fortschritts und die Krisen-Erfahrungen 
und -Stimmungen rund um den ersten Weltkrieg bestimmen in Musils Fall sein Schrei- 
ben"*. Insgesamt beeinflussen auch - wie beinahe jeden »Modernisten« - wissenschaft- 
liche, auch philosophische und psychologische Erkenntnisse (auch im Fall Musils durch 
die Lektüre Ernst Machs) sowie eine postulierte »Einheit< eines »Methodentransfers< zwi- 
schen den »in der Moderne auseinanderdriftenden »zwei Kulturen (C.P. Snow) Geistes- 


115 


und Naturwissenschaften« sein Schaffen." »Technische Interessen stehen neben litera- 


110 Kremer: Kafka und die Hermeneutikkritik, S. 349f. Vgl. zur dekonstruktivistischen Deutung von 
Kafka durch Derrida auch Engel: Der Process, S. 199f. 

111 Vgl. Jagow: Der Landarzt-Band, S. 505ff. 

112 Vgl. Jagow: Der Landarzt-Band, S. 506. 

113 Jagow: Der Landarzt-Band, S. 507f. Auch hier spielt der Tod eine Rolle (vgl ebd.), in der Figur des 
Landarztes sieht Jagow mit Jahraus das »Bild für eine sinnlose Schriftstellerexistenz« (ebd., zit.n. 
Jahraus, O. (2006): Kafka. Leben, Schreiben, Machtapparate. Stuttgart, S. 380). 

114 Vgl. Pfohlmann, O. (2016): Biografie. In: In: Robert-Musil-Handbuch. Hg. v. B. Nübel und N.C. Wolf, 
Berlin/Boston, S. 1-34, S. 7ff. Nicht nur die Nietzsche-Lektüre verbindet einen Autoren der Moder- 
ne wie Robert Musil (zum ersten Mal 1898, vgl. ebd., S. 10f.) mit anderen Autoren wie Rainer Maria 
Rilke oder Hermann Hesse, auch Erfahrungen in (militärischen) Erziehungsanstalten sind in gut- 
bürgerlichen Familien verbreitet. 

115 Insbesondere seit seiner Lektüre von Ernst Machs Schriften Psychologie und Physik, vgl. Pfohl- 
mann: Biografie, S. 7f. (alle Zitate). 


Henning Femmer und Alexa Lucke: Über den Nutzen des Natural Language Processing 


risch-künstlerischen [...]. Es war zugleich der Konflikt einer ganzen, zwischen Verstand 
und Gefühl zerrissenen Epoche.«”® Das »nervöse Zeitalter: (Kafka), die >Modekrankheit< 
Hysterie und Musils eigene Auseinandersetzung mit der Sprachskepsis in seinen frühen 
Arbeitsheften zeichnen außerdem ein Bild der Seele um 1900, wie sie in Musils Roma- 
nen zu finden sind." Auch die Suche nach der eigenen männlichen Identität, die Auf- 
lösung eines modernen »Ich«, »Brüche im Lebenslauf«, »provisorische Lebensführung«, 
das Thema der Homosexualität, ein (erotischer) »Möglichkeitssinn«"® und das Männer- 


9 ‚Freiheit paart sich bereits mit der Frage nach einer 


Bild der Zeit prägen seine Werke. 
eigenen Seins- und Existenzberechtigung als Zeichen einer aufkeimenden Existenzia- 
lismus-Philosophie. 

Das Romanfragment Der Mann ohne Eigenschaften (abgekürzt: MoE) ist im Großen und 
Ganzen ein Lebensprojekt Musils: »Während er mit seiner unzeitgemäßen Leidenschaft 
nach »Richtigkeit/Genauigkeit< (MoE, 1937) noch den Kriegsausbruch 1914 aufarbeitete, 


steuerte die Moderne ungebremst bereits auf eine Wiederholung der Katastrophe zu.«'*° 


Wo spielt der Roman? Im Vorkriegs-Österreich, der königlich-kaiserlichen Monarchie, 
die Musil Kakanien nennt. (Der erfundene Name erinnert übrigens auch an griechisch 
»kakös« = schlecht, untauglich.) Er beschreibt Kakanien so: Dies war ein Staat, der sich 
selbst irgendwie nur noch mitmachte, man war negativ frei darin, ständig im Gefühl 
der unzureichenden Gründe der eigenen Existenz«. Eben deshalb ist Kakanien in dop- 
peltem Sinne der »fortgeschrittenste Staat: Weil hier nämlich, in einem »besonders 
deutlichen Fall der modernen Welt«, die Auflösung der Wirklichkeit am weitesten fort- 
geschritten ist, kann sich hier auch am ehesten ein schöpferischer »Möglichkeitssinn« 
entfalten, der die Wirklichkeit »als Aufgabe und Erfindung behandelt«.'”' 


Der Bezug zur »Moderne< im Roman Der Mann ohne Eigenschaften wird von Musil selbst 


™ Musil, bzw. seine Texte, werden im westlichen Literaturkanon als 


explizit genannt. 
repräsentativ für eine literarische Moderne erachtet. Hier kommt die angespannte Kon- 


stellation von Staaten oder ein »Möglichkeitssinn’” (MoE, Kap. 1/4 und 62) zum Aus- 


116 Pfohlmann: Biografie, S. 9. 

117 Vgl. Pfohlmann: Biografie, S. 10f. 

118  Pfohlmann: Biografie, S. 15. 

119 Vgl. Pfohlmann: Biografie, S. 11ff. 

120 Pfohlmann: Biografie, S. 30. 

121 Aus der Rede von Christoph Hönig auf der 139. Veranstaltung der Humboldt-Gesellschaft am 
15.04.02 mit dem Titel »Robert Musil: Ein Mann ohne Eigenschaften?« (https://www.humboldtg 
esellschaft.de/druck.php?name=musil, zuletzt aufgerufen am 30.03.2023). 

122 Vgl. zur»moderne[n] Erfahrung von Kontingenz«, der»allgemeinen Vieldeutigkeit<und Musils Kri- 
tik an der Moderne im M.o.E. Wolf, N.C. (2016): Der Mann ohne Eigenschaften (1930/1932/postum). 
In Nübel/Wolf: Robert-Musil-Handbuch, S. 224-319, S. 233ff. 

123 Vgl. auch Wolf, N.C. (2016): Die Schwärmer. In: Nübel/Wolf: Robert-Musil-Handbuch, S. 157-190, 
5.173. Der Möglichkeitssinn beinhalte ein »Andersseinkönnen« und die Idee, dass >alles möglich« 
sei (vgl. ebd.). Vgl. auch Kimmich: Moderne, S. 37. Robert Musil verwendete selbst diesen Begriff 
in seinem Essay Der deutsche Mensch als Symptom (1923) und grenzte diesen als eine Art»Konzept[.] 
moderner Multiplizität« und in einem Sinne stellvertretend für eine Moderne als »einer fluiden 
»Möglichkeitswelt«« gegen einen >»Wirklichkeitssinn< ab (ebd.) Als Anhänger der Gestalt-Theorie 
liebte Musil Vexierspiele und -bilder, die sunmögliche«, jenseits klassischer Logikkalküle, freiset- 
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druck, der im Roman als überlegen zu einer Wirklichkeit gesetzt wird. Er wird auch als 
metafiktionales Element im Roman gesehen. '”* 


Wenn es aber Wirklichkeitssinn gibt, und niemand wird bezweifeln, daß er seine 
Daseinsberechtigung hat, dann muß es auch etwas geben, das man Möglichkeitssinn 
nennen kann. Wer ihn besitzt, sagt beispielsweise nicht: Hier ist dies oder das ge- 
schehen, wird geschehen, muß geschehen; sondern er erfindet: Hier könnte, sollte 
oder müßte geschehn; und wenn man ihm von irgend etwas erklärt, daß es so sei, wie 
es sei, dann denkt er: Nun, es könnte wahrscheinlich auch anders sein. So ließe sich 
der Möglichkeitssinn geradezu als die Fähigkeit definieren, alles, was ebensogut sein 
könnte, zu denken und das, was ist, nicht wichtiger zu nehmen als das, was nicht ist.” 


Zur Operationalisierung eines Möglichkeitssinns bietet sich, wie in diesem Zitat ersicht- 
lich, der Konjunktiv an (s. Kap. 3.2). 

Wer nach der Moderne Musils fragt, sollte sich nach Dorothee Kimmich mit ei- 
ner »begriffsgeschichtlichen Klärung« befassen, »was »modern in unterschiedlichen 
Zusammenhängen meinen kann«, und mit den spezifischen »politischen, gesellschaft- 
lichen und kulturellen Umwälzungen und »Errungenschaften« (Luhmann 1997, S. 609), 
die als spezifisch »modern« einzuschätzen sind, zu identifizieren und vorzustellen (vgl. 
Reckwitz 2007)«.”° Zuletzt gilt es zu fragen, »wie sich die Texte von Robert Musil in 
diesen kulturellen Kontext einordnen lassen«.'”” Der Begriff »modern« ist laut Dorothee 
Kimmich ein »relationales Konzept«, dass sich nur in Relation und auf der Folie des 
»Alten« (bzw. der sanciens«) konstitutiere.® 

Mit Kimmich fragt der vorliegende Beitrag nach der Einordnung von Texten in ih- 
re (kultur)historischen Kontexte. Es müsste also zu zeigen sein, wie und ob sich dieses 
»Neue« moderner literarischer Texte nach Kimmich von dem »Alten« (in vorliegenden Fall 
von Texten des »Naturalismus<) (signifikant) abgrenzen lassen. An diesem relationalen 
Begriff »modern im Verhältnis zum »Alten« lässt sich schon seine gesamte immanente 
Problematik von zeitlichen Fixationen und Grenzziehungen erkennen. Aus ästhetisch- 
programmatischer Perspektive ist aber das (radikal) »Neue< und »Provokative< schon im- 
mer ein konstitutives Element von (moderner) Literatur gewesen, das sich vom Traditio- 
nellen abheben soll. 


zen (vgl. Pfohlmann: Biografie, S. 8.) die Inversion eine beliebte Figur des »Gegenstücks des alltag- 
lichen Weltverhältnisses« (ebd.). 

124 Vgl. Nübel, B. (2016): Möglichkeitssinn und Essayismus. In: Nübel/Wolf: Robert-Musil-Handbuch, 
S. 719-725, S. 722 (im Anschluss an Jakob 1992, S. 15). 

125 Musil, R. (1997): Der Mann ohne Eigenschaften. Roman | Erstes und Zweites Buch. Hg. v. A. Frisé, 
Kap. 1/4, S.16. Der Konjunktiv als der sprachliche Ausdruck des Möglichkeitssinns erweist sich in 
dieser Passage als evident. 

126 Kimmich: Moderne, S. 37. 

127 Kimmich: Moderne, S. 37. 

128 Vgl. Kimmich: Moderne, S. 37. 
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Die Frage, ob es sich bei den »epochalen Figurationen« (Dorothee Kimmich) Naturalismus 
und Moderne um sprachlich voneinander abgrenzbare und distinkte Epochenkategorien 
handelt im Sinne einer Disruption zwischen beiden Epochen, soll exemplarisch anhand 
von einigen »proto-typischen« Texten beider Epochen mit einem NLP-basierten Tool em- 
pirisch überprüft werden. Operationalisiert wird diese Frage durch die Messung von (si- 
gnifikanten) sprachlichen bzw. linguistischen Unterschieden zwischen den Texten, die 
ggfs. eine Zuordnung zu den o.g. Epochen ermöglicht. Das Qualicen Scout, bewertet die 
Qualität von Anforderungen bzw. Texten anhand von einer Reihe von voreingestellten 
Filtermechanismen und Analysen. Der Studie liegt die Annahme zugrunde, dass eini- 
ge davon wie unpräzise Ausdrücke, Superlative, Konjunktive und Negationen Ausdruck 
von Mehr- und Uneindeutigkeiten sind, wie sie als Merkmal von literarischen Texten zu 
finden sind.”° Als solche müssten sie in den Texten der Moderne (noch) häufiger vor- 
kommen. 

Während also das Verhältnis zur Wirklichkeit zwischen Naturalismus und Moder- 
ne als einerseits fiktionales und andererseits metafiktionales in literarischen Erzählun- 
gen grundsätzlich differiert (Hypthese1), lässt sich nicht unbedingt eine klare Trennung 
zwischen den Motiven der Literatur beider Epochen ziehen (Hypothese 2). Es existieren 
eher »weiche« Übergänge zwischen den Motiven der Technisierung, der bahnbrechen- 
den wissenschaftlichen Erkenntnisse, der Urbanisierung der Psychologie bzw. Psycho- 
analyse (Freud), der Anonymisierung, der Bürokratie, des Unvollendeten und Fragmen- 
tarischen. Dies alles sind gesellschaftliche Themen um 1900, die sich auch in modernen 
Erzähltexten fortsetzen. 

Es soll auch die damit verbundene Frage, ob es sich hier um erfolgreich kanonisierte 
Kategorien aufgrund von ästhetischen Programmen in der Literaturgeschichtsschrei- 
bung oder eher um ein überlappendes Kontinuum oder verschiedene »transitorische« 
(Stöckmann) Entwicklungsstadien einer Moderne handelt, die sich als Makroepoche bis 
heute an diversen sprachlichen, programmatischen, logischen und narrativen Text-Ord- 
nungsweisen abarbeitet, so dass im letzteren Fall von einer »naturalistischen Moderne« 
gesprochen werden kann. 

Für die historische These, also einer sprachlichen Entfremdung und früheren Sprach- 
stufe in Kafkas Texten, könnten u.U. ähnliche Dichtewerte wie bei den Texten von Haupt- 
mann oder Holz und Schlaf sprechen. Kritisch und herausfordernd für die computatio- 
nelle Analyse stellt sich der Aspekt der Unterscheidbarkeit von ästhetisch-programmati- 
schen Aspekten und empirischer Datenlage dar: mimetisch-abbildende und beschränk- 
te Referentialität i. S. v. Eindeutigkeit im Naturalismus vs. unendliche und verwirren- 
de Verweisungsstruktur in der Moderne. Das Kriterium des semiotischen Überschusses 
oder prinzipiellunendlichen Verweisungsüberschusses von Sprache als Kennzeichen der 
Moderne wird anhand der Eindeutigkeit von Referenzbezügen innerhalb der Texte durch 
das NLP-basierte Tool gemessen. Bei Texten des Naturalismus sollten diese referenti- 
ellen Überschüsse beschränkt, d.h. gegenüber Texten der Moderne reduziert, sein. Ein 


129 Vgl. Lucke: Schillers Ästhetische Briefe als Literatur, S. 27ff. und 205. 


n 
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weiteres Differenzierungskriterium für beide Epochen, das im oben skizzierten litera- 
turgeschichtlichen Horizont präsentiert wurde, ist das der Fiktionalität bzw. der Meta- 
fiktionalität. Es stellt sich aber als schwierig heraus, dieses mit den vorliegenden Filtern 
zu messen. Vielleicht könnte die Häufigkeit selbstreferentieller Ausdrücke, wie deikti- 


sche oder indexikalische Begriffe, '° 


gemessen werden oder Wörter, die den eigenen fik- 
tionalen Status der Erzählung, Deutung oder Auslegung implizit oder explizit benennen 


(vgl. Kap. 6 Anforderungsspezifikation). 


3.1 Forschungsfragen und Hypothesen 


Aus dieser Diskussion ergeben sich die oben bereits genannten Forschungsfragen (FF): 


FF1. Sind die Epochen des Naturalismus und der Moderne durch automatische Analyse 
voneinander abgrenzbar? 

FF 2. Bietet die automatische Analyse Indizien, Kafka in eine der 0.g. Epochen einzu- 
ordnen? 

FF3. Bringt die Methode eindeutige Ergebnisse in Bezug auf o.g. Fragestellungen? Wie 
müssen die Anforderungen spezifiziert werden, um der literaturwissenschaftli- 
chen Fragestellung zu genügen? Müssen die literaturwissenschaftlichen Fragestel- 
lungen angepasst und umformuliert werden? 


Folgende Hypothesen sollen auf der Basis von ausgewählten Texten und Textausschnit- 
ten mithilfe des NLP-basierten Tools überprüft und ggfs. verifiziert werden: 

Hypothese 1: Moderne Texte sind semantisch uneindeutiger, da ihre grammatikali- 
schen Bezüge uneindeutige Referenzbezüge haben. Häufig treten auch Widersprüche 
auf, die sich beispielsweise in Negationen oder unpräzisen Phrasen ausdrücken können. 
Ein naturalistischer Text wird vom Programm besser bewertet (niedrige Defektdichte, 
engl. defect density, s. Kap. 4, also relativ weniger Qualitätsmängel bzw. Findings), da die 
Referenzbezüge eindeutiger sein sollten, als z.B bei einem modernen Text. 

Hypothese 2: Die Defekt-Dichte der Findings in den jeweiligen bereits vorgegebenen 
Analysen unterscheidet sich nicht auffällig in Bezug auf die Texte beider Epochen auf- 
grund von zwei möglichen Erklärungen: Entweder gibt es eine höhere Ähnlichkeit bzw. 
Ununterscheidbarkeit beider Epochen, was für die berechtigte Annahme einer Makro- 
epoche »>Modern« sprache oder aber das Programm übersieht die tatsächlich existieren- 
den Unterschiede aufgrund der nicht fein genug eingestellten Filter. 


130 Nöth, W. (2001): Selbstreferenz in systemtheoretischer und in semiotischer Sicht. In: Barsch, A. 
u.a. (Hg.): Festschriftprojekt zu Ehren von Siegfried J. Schmidt. 2000. http://sjschmidt.net/konze 
pte/texte/noeth.htm -Trad.: Auto-referéncia na teoria dos sistemas e na semiötica. Revista de Co- 
municagäo e Linguagens [Lisboa] 29 (2001), S. 13-28. 
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3.2 Mögliche Kriterien für die (vorläufigen) Anforderungen 


für die literaturwissenschaftliche Analyse: 


Naturalismus 


Papa Hamlet/Bahnwärter Thiel: weniger referentielle Überschüsse/weniger Unein- 
deutigkeiten (z.B. gegenüber modernen Texten) 

Naturwissenschaftliche, technische Begriffe im Naturalismus 

Sehr seltenes Auftreten des auktorialen Erzählers 


Moderne 


Begriffe der Beschleunigung (zeitliche Adverbien), Desynchronisation als Zeit- 
raffern, Steigerung (Komparative, Superlative, mathematische Zahlwörter und 
-relationen) 

Verweise auf Metafiktionalität (z.B. indexikalische, deiktische Ausdrücke »die- 
se/r/s«, »hier« oder Wiederholungen im Anschluss an Néth™) 

Identitätsmarker: weiblich - männlich 

Logik - Widersprüche (Moderne) 

»Möglichkeitssinn«: haufigere Verwendung des Konjunktivs (würde, könnte, sollte, ...) 
Anteilige Zunahme der Figurenrede, innere Monologe und Bewusstseinsströme, er- 
lebte Rede, gänzliches Fehlen des auktorialen Erzählers 


Kafka 


Sprachliche Besonderheiten 

Hinweise auf eine frühere Sprachstufe (historische These) 

(Metafiktionale) Verweise auf die Auslegung/Deutung oder die »hermeneutische Me- 
thode (literarische These) 

Zeitlogiken 


3.3 Textkorpus'”? 


Naturalismus 


Gerhart Hauptmann: Bahnwärter Thiel (1888) 


131 
132 


Vgl. Nöth: Selbstreferenz in systemtheoretischer und in semiotischer Sicht. 

Als Textbasis wurden die Texte des Projekts Gutenberg (https://www.projekt-gutenberg.org) ver- 
wendet, weil diese als digitale und frei verfügbare sowie urheberrechtsfreie Texte im Netz vor- 
liegen. Eine neuere Version oder kritische Editionen waren für die vorliegende Fragestellung nicht 
notwendig. Die Texte basieren zu einem erheblichen Teil auf älteren Editionen (wie im Fall von Pa- 
pa Hamlet beispielsweise auf einer Ausgabe des Carl Reissner Verlags aus dem Ersterscheinungs- 
jahr 1889) und wurden in Microsoft Word© für die Anwendungen aufbereitet. Bei TextGrid fehlen 
zum Teil auch noch Digitalisate (wie von Hauptmanns Bahnwärter Thiel oder Musils MoE). 
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+ Arno Holz (Pseudonym: Bjarne H. Holmsen, zusammen mit Johannes Schlaf): Papa 
Hamlet (1889), Textausschnitt (Kap. 5) 


(Literarische) Moderne 
Franz Kafka: 


e Ein Landarzt (1918) 

« Vor dem Gesetz (1915) 
« Ein Traum (1920) 

e Erstes Leid (1924) 


Robert Musil: Der Mann ohne Eigenschaften, Erster Teil, Eine Art Einleitung (Kapitel 
1-10) (1930 in 3 Bänden) 


Realismus 
Adalbert Stifter: Granit (1853, aus Bunte Steine) 


Kriterien für die Auswahl von Texten Beim reduzierten Textkorpus handelt es sich um 
ein reines Testkorpus, da es in erster Linie um den Nutzen einer NLP basierten Analyse 
in der computergestützten Analyse literarischer Texte geht, außerdem um die Analyse 
und Spezifikation von literaturwissenschaftlichen Anforderungen an bestehende tech- 
nische Lösungen. Es ist für die Produktion von repräsentativen Ergebnissen statistisch 
zu klein.'?* Das wichtigste Kriterium für die Auswahl der Texte war, dass sie in der tradi- 
tionellen Literaturgeschichtsschreibung als epochentypische Repräsentanten des Natu- 
ralismus oder der literarischen Moderne gelten, die sich durch den impliziten oder ex- 
pliziten Anspruch an eine starke Kongruenz zu übergeordneten (eigenen) ästhetischen 
und poetologischen Kategorien und Konzepten auszeichnen und einen gewissen kano- 
nischen Erfolg aufweisen. 

Der Text Papa Hamlet wurde, wie bereits umfassend in Kapitel 2.1.2 beschrieben, 
oft als die exakte Umsetzung des eigenen ästhetischen Programms wie bei Holz’ und 
Schlafs konsequentem Naturalismus in Neue Gleise (1892) und einer positivistischen Äs- 
thetik wie in Holz’ Die Kunst, ihr Wesen und ihre Gesetze (1891) gesehen. Der Text gilt als Mus- 
terbeispiel naturalistischen Schreibens; ob dies auch auf der sprachlichen Ebene des Tex- 
tes empirisch mess- und überprüfbar ist, war eine unserer leitenden Fragen. Typische 


133 Damit Qualicen Scout die Density (Dichte) gemessen wird, spielt die Textlänge in der Bewertung 
keine Rolle. 

134 Statt zunachst mit einer explorativen Studie und einem größeren Textkorpus zu beginnen, wie ak- 
tuell üblich in den Computational Literary Studies, deren Ergebnisse später aber u.a. das Problem 
der nicht vollständigen Interpretierbarkeit nach sich ziehen, da nicht mehr ganz nachvollziehbar 
und transparent ist, welche Texte und Phänomene im Einzelnen und im Zusammenhang für die 
statistischen Ergebnisse tatsächlich verantwortlich sind, möchten wir hier eine in der Informatik 
übliche Vorgehensweise vorschlagen und anwenden, zunächst mit Testdaten zu beginnen, auf die 
weitere repräsentative Studien mit großen Datensätzen bzw. Korpora folgen können. 
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Vertreter für Epochen ausfindig zu machen, ist nicht so einfach, wie es auf den ersten 
Blick scheint, denn selbst wenn literarische Texte als prototypisch für eine Epoche gelten, 
wird oft kontrovers diskutiert, ob auch andere epochale Einflüsse in den Texten vertre- 
ten sind. Epochenklassifikationen basieren daher weitgehend auf Kontingenz, weshalb 
ein Beharren auf Epochenkategorien in literaturgeschichtlichen Kontexten größtenteils 
überholt scheint.Die bisherige Dominanz bestimmter Konzepte und Gattungen, unter 
die individuelle Einzelgattungen subsumiert werden — auf Kosten dieser Individuali- 
tät - ist natürlich Teil eines allgemeinen literaturgeschichtlichen Problems, aber auch 
zum Beispiel des Distant Reading. 

Bei der literaturwissenschaftlichen Methode des Close Reading werden in der Regel 
kleine Korpora verwendet, anhand derer eine Analyse oder ein Vergleich von ein, zwei 
oder drei Texten, Autor:innen oder Epochen durchgeführt wird. Thomas Weitin nennt 
dies »Kontextverknappung«'”, d.h. Reduktion oder Verlust von Kontext. Statistische 
Analysen beim Messen von Zeichen, Wörtern, Phrasen und Sätzen wie in NLP-basierten 
Verfahren reduzieren zwar ebenfalls den Kontext, aber man gewinnt auch Kontext 
und Komplexität durch verschiedene sprachliche Analysen oder die Validierung der 
Ergebnisse durch anschließende manuelle Reviews als Teil einer interaktiven Feedback- 
Schleife. In beiden Fällen handelt es sich also gewissermaßen um eine Kontextreduk- 
tion, die im zweiten Fall u.U. auf Kosten der Validität und im ersten auf Kosten der 
Repräsentativität geht. 

Die Literaturgeschichtsschreibung war außerdem immer schon mit dem Problem 
der Auswahl von Texten, Korpora und ihren Kriterien konfrontiert, die historisch häufig 
auf normativen, bildungspolitischen oder durch problematische Differentiationen dis- 
kursiv (und auch ideologisch) verzerrten Leitgedanken basieren. Vor dem Hintergrund 
der Problematisierung von Epochenkategorien bezog sich der vorliegende Ansatz ins- 
besondere auf die Heuristiken von kombinierten Close and Distant Reading-Verfahren, 
auch für historische semantische Themen und Trends. 


Verzerrungseffekte des (westlichen) Kanons Wenn ein Korpus auf dem (westlichen) Lite- 
raturkanon basiert, reproduziert es ohnehin (ästhetische) Verzerrungseffekte (Bias-Ef- 
fekte), wie sie Moretti in Conjectures on World Literature (2000) skizziert hat. In diesem 
Zusammenhang hat Franco Moretti den Begriff der Weltliteratur problematisiert, weil 
dieser sich auf einige wenige Werke konzentriere, und ändert die Blickrichtung mit der 
Frage, ob die westlich-europäische Novelle global gesehen eher die Regel oder eine Aus- 


nahme sei.2° 


Zum Beispiel sind Literaturen und Künste nicht-westlicher Kulturen zu- 
sätzlich mit der problematischen und zum Teil widersprüchlichen Differenz der ästhe- 
tischen Prägung durch westliche Formen und dem Darstellen von eigenen sozialen Er- 
fahrungen zugleich konfrontiert. Es gibt mit dem Einzug von computationellen, quan- 
titativen Methoden also auch ein mannigfaltiges Material für neue und andere theoreti- 
sche und empirische Zugänge zu globalen Literaturen und ihren Kontexten, außerdem 


zu alternativen historischen Literaturgeschichtsschreibungen. Zum Beispiel zeigt eine 


135 Vgl. Weitin: Digitale Literaturgeschichte, S. 116. 
136 Vgl. Moretti, F. (2000): Conjectures on World Literature. In: New Left Review 1, S. 54-68. 
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experimentelle Studie mithilfe der digitalen Methode der Stilometrie von Thomas Wei- 
tin, dass Goethe mit Die neue Melusine entgegen der allgemeinen Erwartungshaltung eben 
nicht stilbildend für den Kanon der Novellen des 19. Jahrhunderts ist.” 


4 Studie 


Der kommende Abschnitt erklärt die Datenerhebung zur Beantwortung der o.g. Frage- 
stellung. Dabei soll zunächst das eingesetzte Werkzeug Qualicen Scout und anschließend 
der Einsatz des Werkzeugs für das vorgestellte Experiment erläutert werden. 


4.1 Hintergrund: Originäre Anwendung des Qualicen Scout 


Der Qualicen Scout ist ein industrielles Softwareprodukt für die automatische Erken- 
nung von Requirements Smells. Scout wurde entwickelt und vertrieben durch die Firma 
Qualicen'® und wird in der Industrie in Software- und Systementwicklung eingesetzt. 
Schematisch vereinfacht kann man die Software- und Systementwicklung dabei als ei- 
nen Prozess betrachten”, der aus vier Phasen besteht und dabei jeweils Entwicklungs- 
ergebnisse (sog. Artefakte) produziert: 


1. Anforderungserhebung: In der ersten Phase der Entwicklung werden relevante An- 
forderungsquellen, also Dokumente, Personen oder existierende Systeme, identifi- 
ziert und mittels unterschiedlicher Techniken die jeweiligen Wünsche und Anwen- 
dungsintentionen mit dem System erhoben. Nach der Auflösung von Widersprü- 
chen und Priorisierung werden die konsolidierten Anforderungen üblicherweise in 
einer sog. Anforderungsspezifikation textuell dokumentiert. Anforderungsspezifi- 
kationen haben in der Praxis nicht selten mehrere hundert oder sogar tausend Seiten 
und können im Extremfall auf mehrere Millionen Sätze anwachsen. 

2. Systementwurf: Aus der Anforderungsspezifikation entwickeln Architekten einen 
zunächst groben, dann feinen Plan des Aufbaus und der grundsätzlichen Funktions- 
weise des Systems. Das Ergebnisartefakt ist üblicherweise eine grafische Visualisie- 
rung in speziellen Modellierungssprachen, wie etwa UML (Unified Modeling Lan- 
guage) oder SysML. 

3. Implementierung: Die Architektur wird dann durch die Zusammenwirkung un- 
terschiedlicher Disziplinen (Entwickler, Systemingenieure, Elektroniker usw.) in 
die Realität umgesetzt, d.h. als Entwicklungsartefakte in Form von Programmcode, 
CAD usw. realisiert. 


137 Vgl. Weitin, T. (2021): Digitale Literaturgeschichte, Berlin. Eine Erweiterung des transkulturellen 
Kanons um minoritäre, nicht-beachtete, periphere und nicht-europäische Literaturen erscheint al- 
so angesichts neuer datenbasierter Forschungsperspektiven als unerlässlich, um transkulturelle 
und transhistorische Verflechtungen und Überlappungen angemessen wahrnehmen und beurtei- 
len zu können. 

138 Vgl. https://www.qualicen.de 

139 Vgl. für eine feingranulare Einführung Broy, M., Kuhrmann, M. (2021): Einführung in die Software- 
technik. Berlin/Heidelberg. 
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4. Test: Zuletzt (und bestenfalls parallel zur vorherigen Phase) wird aus den Anforde- 
rungen ein Testspezifikation erstellt. Diese Spezifikation beschreibt, welche Aspekte 
des Systems in welcher Reihenfolge und mit welchen Daten in welcher Umgebung zu 
prüfen sind und was jeweils als Ergebnis erwartet wird. Basierend auf dieser Testspe- 
zifikation wird dann das implementierte System gegen die Anforderungen geprüft, 
entweder inhouse oder durch einen externen Partner, häufig in technisch gut entwi- 
ckelten Niedriglohnländern. 


Es ist offensichtlich, dass die in Phase 1und 4 entstandenen natürlichsprachlichen Doku- 
mente eine besondere Rolle im Prozess einnehmen und dementsprechend ihre Qualität 
von entscheidender Bedeutung für den Projekterfolg ist: Eine fehlerhafte Anforderung 
führt zu einer fehlerhaften Architektur, die wiederum zu einer fehlerhaften Umsetzung, 
welche zu einem fehlerhaften Test führt. Dabei sind Millionenschäden keine Seltenheit, 
wie zahlreiche Großprojekte zeigen.'*° Genau hier setzt die automatische Smell-Erken- 
nung an. Wie bereits beschrieben, bezeichnet ein Requirements Smell dabei einen potenti- 
ellen Qualitätsdefekt, welcher konkret lokalisierbar ist und für welchen ein konkreter Er- 


M Fine konkrete, identifizierte Instanz 


kennungsmechanismus angeben werden kann. 
eines Smells innerhalb eines konkreten Artefakts bezeichnet man als ein Finding. Bild- 
lich kann man sich ein Smell als ein Muster schlechter Qualität vorstellen (etwa »Lange 
Sätze«) und ein Finding als einen langen Satz in einem bestimmten Text. Studien ha- 
ben gezeigt, dass von automatisierten Werkzeugen produzierte Findings einige der in 
Anforderungsdokumenten und Testfallspezifikationen auftauchenden Probleme erken- 
nen und dadurch auf die Eliminierung des Defekts vor den kritischen Phasen hinwirken 


können.” 


Durch die Unschärfe des Verfahrens können sie jedoch manuelle Prüfungen 
in Form von Reviews nie ganz ersetzen. 

In der vorliegenden Studie geht es weniger um die Erkennung von sprachlichen De- 
fekten wie bei den Smells, sondern die sprachlichen Vorkommnisse (Findings) gelten 
hier als Indikatoren, die sowohl deterministisch als auch heuristisch'* für bestimmte 


lexikalische, grammatische, strukturelle und semantische Sachverhalte stehen können. 


[S]mells [as indicators for] semantic category have to be broken down to lexical, gram- 
matical or structural aspects in order to be automatically detectable.'** 


140 Vgl. u.a. den Fall der spanischen Bahnorganisation Renfe, welcher 31 Züge fertigen ließ, 
die nicht durch die Tunnel des spanischen Zugnetzes passten. Der Präsident der Renfe, so- 
wie die Staatsekretärin im Transportministerium mussten daraufhin ihren Posten räumen. 
https: //www.spiegel.de/wirtschaft/unternehmen/spanien-bahn-bestellt-zu-grosse-zuege-fuer- 
ihre-tunneles-ist-ein-fehler-aufgetreten-a-f25d04a9-8873-451a-b77f-8d94090f7b95 

141 Vgl. Femmer, H., Mendez-Fernändez, D., Wagner, S., Eder, S. (2017): Rapid quality assurance with 
requirements smells. Journal of Systems and Software 123, S. 190-213. Hier dienen Requirement 
(Bad) Smells als konkrete Symptome fiir einen »requirements artifact’s quality defect« (vgl. ebd., 
S.1). Hier wurden jenseits von Semantik Lösungen zur automatisierten Erkennung von sprachli- 
chen Qualitätsdefekten in Anforderungen entwickelt. 

142 Vgl. Femmer et al.: Rapid quality assurance with requirements smells. 

143 Vgl. Femmer etal.: Which requirements artifact quality defects are automatically detectable? 

144 Femmer, H. (2018): Requirements Quality Defect Detection with Qualicen Requirements Scout. 
https://ceur-ws.org/Vol-2075/NLP4RE_paper2.pdf [30.10.2023] 
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4.2 Hintergrund: Funktionsweise des Qualicen Scout 


Im System sind Smells in Form von automatisch prüfbaren Regeln hinterlegt. Teilweise 
sind die Regeln konfigurierbar, etwa welche Satzlänge als lang angenommen wird. Wei- 
terhin verfügen fast alle Regeln über sogenannte Filterkonfigurationen. Damit lassen 
sich wiederkehrende Falscherkennungen ignorieren. Mit diesem Regelsatz als Grund- 
lage detektiert das Werkzeug die Smells dabei in folgender Weise'*: 


« Zunächst wird im sog. Parsing das Dokument in einzelne Abschnitte zerlegt. 

« Dann wird der Text mit NLP-Techniken um grammatikalische Informationen ange- 
reichert, wie etwa der Lemmatisierung, also der Rückführung des Wortes in seine 
grammatikalische Grundform oder der Part-of-Speech, also einer äußerst feingra- 
nularen Wortarterkennung. 

e Anschließend werden die angereicherten Texte auf die hinterlegten Regeln geprüft. 
Verletzt eine Textstelle eine Regel des Regelsatzes, wird dieses potentielle Finding 
gegen die Filterregeln geprüft. Falls keine Filterregel »anschlägt«, wird das Finding 
gespeichert und im Text entsprechend als potentielles Qualitätsproblem markiert. 


Das benötigt dabei im Schnitt etwas weniger als eine halbe Sekunde pro Satz für diese 
drei Schritte. 

Anwender:innen können nun über eine Website den markierten Text betrachten und 
sich dabei durch entsprechende Schalter auf bestimmte Textstellen oder Smells fokus- 
sieren. Weiterhin können Metriken zur Größe und Menge der Findings pro Ordner oder 
Datei ausgegeben werden (siehe Abschnitt 4.4). Innerhalb der Anzeige können Anwen- 
der:innen im Nachgang außerdem weitere Findings ausblenden, die in der manuellen 
Nachinspektion als nicht kritisch bewertet werden. Entsprechend ausgeblendete Fin- 
dings werden aus den Metriken herausgerechnet. 


4.3 Studiendesign: Vorgehen zur Datenerhebung 


Das Vorgehen zur Datenerhebung ist in zwei Phasen untergliedert. In einer Vorphase 
wurden an Ausschnitten der 0.g. Texte zunächst der Regelsatz, sowie die Filterregeln 
definiert. Dabei wurde darauf geachtet, dass der Regelsatz möglichst in semantischen 
Zusammenhang zu den o.g. Hypothesen zu bringen ist. 

In der Hauptphase wurden nun vermeintlich repräsentative Texte in das System ein- 
gespeist. Analysiert wurden dabei Texte bzw. Textausschnitte der folgenden Gruppen: 


- Naturalismus 
e Moderne 
« Kafka 


145 Vgl. Femmer et al.: Rapid quality assurance with requirements smells. 


Henning Femmer und Alexa Lucke: Über den Nutzen des Natural Language Processing 
4.4 Studiendesign: Detektierte Smells und erhobene Metriken 


Die folgenden Requirements Smells wurden durch das System erkannt und fließen in 
die Analyse ein: 


« Dangerous Slash: Diese Analyse identifiziert Schragstriche, die in technischen Texten 
häufig auf unprazises Vokabular hindeuten. 

e  Imprecise Phrases: Diese Analyse identifiziert vage Ausdrücke, wie etwa gut oder 
schnell. Diese Unschärfe ist in Anforderungen und Tests hinderlich, da subjektiv. 

+ Vague Pronouns: Diese Analyse identifiziert Pronomen, welche die Lesbarkeit und Ein- 
deutigkeit erschweren können. 

e Comparatives und Superlatives: Komparative und Superlative deuten auf relative An- 
forderungen hin. Die Anforderungen stehen damit nicht fiir sich selbst und bergen 
das Risiko, dass sich ihre Semantik im Projekt andert. 

e Passive Voice: Passive Sprache blendet Akteure und Zuständigkeiten aus und erzeugt 
schwerer lesbare Sätze. 

+ Universal Quantifiers: Diese Analyse findet absolute Begriffe wie immer oder niemals. 
Anforderungen mit diesen Begriffen ignorieren häufig Randfälle und sind daher 
nicht vollständig. 

« Negative Words: Anforderungen sollen beschreiben, was das System tun soll. Negative 
Ausdrücke i.S.v. wie das System nicht zu reagieren hat, sind schwer umzusetzen. 

+ Text in Brackets: Erklärungen in Klammern sind in Anforderungen gelegentlich un- 
eindeutig. Hier ist explizit zu erklären welche Aspekte der Dokumentation etwa Ver- 
tragsgegenstand sind und welche nicht. 

+ Abbreviations: Abkürzungen bergen das Risiko für Leser:innen, uneindeutig zu sein. 

e Tripple Dots: Drei Punkte [...] beschreiben Unvollständigkeit im Sinne etwa eines etc. 

e Long Sentences: Satzlänge ist ein guter Indikator für Unverstandlichkeit. Die hier ge- 
nutzte Grenze von 15 Worten ist im industriellen Kontext eine übliche Größe. 


Weiterhin wurden folgende Metriken erhoben: 


e Größe des analysierten Textes in Zeichen, sowie Worten oder Sätzen 
e Anzahl der Findings pro Smell, sowie insgesamt 
e Smell-Density 


146 dar: Diese 


Die Smell-Density stellt ftir jeden Smell eine sogenannte »Density«-Metrik 
Metrik berechnet hier eine relative »Abdeckung« des Textes mit Smells und ist nötig, um 
unterschiedlich lange Texte miteinander zu vergleichen. Die Metrik berechnet sich dabei 


folgendermaßen für einen Smell s: 


146 Vgl. analog defect densities in Rott, J. (2022, October): Test Intelligence: How Modern Analyses and 
Visualizations in Teamscale Support Software Testing. In: 2022 First International Workshop on 
Visualization in Testing of Hardware, Software, and Manufacturing (TestVis) (pp. 15-21). IEEE. 
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|Von mindestens einem Finding des Smells betroffenes Textzeichen| 


Density. — - 
ensity, |Alle Textzeichen| 


Intuitiv bezeichnet die Density (Dichte) damit den Prozentteil des Textes, an dem ir- 
gendein potentieller Qualitätsdefekt automatisiert detektiert wurde”. Die Metrik er- 
möglicht damit einen relativen Vergleich von Texten untereinander, unabhängig von der 
Textlänge. 


4.5 (Vorläufige) Ergebnisse und Beobachtungen 


An dieser Stelle möchten wir betonen, dass es sich um eine Skizze eines Work-in-Pro- 
gress handelt. Die Ergebnisse der Analyse sind dementsprechend als vorläufig zu be- 
trachten und dienen als Grundlage für die Entwicklung literaturwissenschaftlicher An- 
forderungen. Es geht bei der Auswertung der Ergebnisse also um erste Tendenzen und 
mögliche Erklärungsansätze in Bezug auf die Fragestellung. Die Kurzform der auffäl- 
ligsten Ergebnisse der explorativen Datenanalyse (EDA) findet sich in Tabelle 1.8 Mit 
Ausnahme der Textgröße sind alle angegebenen Werte Density-Werte, d.h. prozentuale 
Überdeckungsmetriken nach obiger Definition. Insgesamt wurden ca. 372.000 Zeichen 
Text analysiert. Davon entfallen etwas mehr als 83.000 Zeichen auf den Naturalismus 
und fast 217.000 Zeichen auf die literarische Moderne” (inkl. Kafka). Der Rest fällt auf 


den »Kontrolltext<aus dem Realismus."°° 


Die Gesamtdensity (über alle Smells) ist geprägt 
von dem Long Sentence Smell. Dies ist nicht unüblich, wenn die Texte nicht unter kon- 


tinuierlicher Überprüfung der Analysen geschrieben werden. 


147 Zur besseren Vorstellung der Density-Metrik kann folgende Analogie dienen: Wenn die Smell-Er- 
kennung so etwas wie ein händisches Review durch mehrere Personen mit unterschiedlich farbi- 
gen Textmarker darstellen würde, dann würde die Density den prozentuellen Textteil berechnen, 
welcher in mindestens einer Farbe markiert ist (also nicht mehr »weiß« ist). 

148 Hierbei handelt es sich nur um einen Ausschnitt aus verschiedenen Smell-Analysen. 

149 Im Folgenden wird nur noch die Kurzform »Moderne« verwendet. 

150 Was in der Tabelle nicht enthalten ist, war ein Vergleich zu älteren Erzähltexten (z.B. Schillers Der 
Verbrecher aus verlorener Ehre und Kleists Das Erdbeben in Chili sowie Sachtexten (z.B. wissenschaftli- 
che Texte oder eine Bedienungsanleitung). Insbesondere die Bedienungsanleitung sticht mit kras- 
sen Unterschieden heraus (z.B. ca. 10-20 Prozentpunkte geringere Smell-Density insgesamt be- 
dingt durch entsprechend weniger lange Sätze). Dafür deutlich mehr Schrägstriche Dangerous 
Slash«, 0,3 % statt 0,0 %), Erklärungen in Klammern (5 % statt 0%) und Passive (ca. 5x höherer 
Wert als in den sonstigen Texten). Alle weiteren Analysen wurden auf GitHub abgelegt (https://g 
ithub.com/LuckeJohannes/Literaturwissenschaft_Informatik). 
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Tabelle 1: Kurzform der Ergebnisse der Smell Analyse auf Literarische Texte (Mittelwerte). Alle 
Werte sind Density-Werte in Prozent. Text Size ist die Gesamtsumme der Characters. 


Smell Density Gesamt 
Dangerous Slashes 
Imprecise Phrases 

Vague Pronouns 
Superlatives 
Comparatives 
Passive Voice 
Negative Words 
Text in Brackets 
Abbreviations 
Triple Dots 
Long Sentences 


Universal Quantifiers 


u 
wn 
2 
D 
g 
U 
g 
S 

£ 

g 
© 

A 

a 
2 
ö 

x 


Naturalismus | 82.844 


Moderne 216.940 


Tabelle 2: Detaillierte Ergebnisse pro Werk. Alle Werte sind Density-Werte in Prozent. 


Smell Density (Overall) 
Dangerous Slashes 
Imprecise Phrases 

Vague Pronouns 
Superlatives 
Comparatives 
Passive Voice 
Negative Words 
Text in Brackets 
Abbreviations 
Triple Dots 
Long Sentences 


2 
2 
D 

= 

S 
a} 
w 

Nn 

2 

© 
= 

= 
=) 


Text Size (Characters) 


Musil — 
Mo- Mann Ohne 189.912 89,3 
derne Eigenschaften 


ka= 13.058 80,1 
Ein Landarzt i i 


Kafka — eae T. 
Ein Traum ` f 


Mo- Kafka — 


6.084 91,6 


derne Erstes Leid 


Kafka — 
Vor dem Ge- 
setz 


AVG 


Hauptmann — 
Bahnwärter 67.671 73,7 | 0,0] 3,4 | 3,8 | 0,4] 2,6 | 0,8] 0,5 | 0,6 | 0,0| 0,0] 0,0] 70,6 
Thiel 


Holz/Schlaf- 


15.173 55,4] 0,0] 6,4] 4,3 | 0,5] 17 | 1,2 | 0,5 | 1,1 | 0,0| 0,0] 0,6] 47,1 
Papa H. 
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»Kontrolltext« 


Realis- 72.203 


. . 90,0| 0,0| 4,5 | 5,5 | 0,2] 2,2 | 1,2 | 0,9| 0,9| 0,0] 0,0] 0,0| 88,1 
mus Stifter-Granit 


Quelle: Tabelle mit Excel erstellt 


Hinsichtlich der Fragestellung weist die empirische Überprüfung mit dem NLP-ba- 
sierten Programm insgesamt zwar einen Unterschied in der Smell Density (Gesamt) zwi- 
schen den Texten des Naturalismus (64,6 %) und der Moderne (83,8%) auf. Dieser Wert 
ergibt sich größtenteils durch den Unterschied bei den Long Sentences (Naturalismus: 
58,9%, Moderne: 80,9 %). Wenn man den Text des Realismus (Granit) von Adalbert Stif- 
ter (90 %) als Kontrolltext hinzunimmt, ergeben sich jedoch keine nennenswerten Un- 
terschiede in der Gesamtbetrachtung. 


Abb. 1: Smell Density (Gesamt). Alle Werte sind Density-Werte in Prozent. In 
der Tabelle sind zum einen die Mittelwerte der Smell Densities (Gesamt) von 
literarischer Moderne und Naturalismus angegeben sowie von den einzelnen 
Autoren. 


Smell Density (Overall) 
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Quelle: Visualisierung mit Excel 


Um vielleicht interessante Punkte im Hinblick auf die Beschreibung von Einzelmerk- 
malen der untersuchten Texte zu finden und um (hermeneutisch) validieren zu können, 
ob die Analyse mit NLP-basierten Verfahren in Bezug auf die literaturwissenschaftlichen 
Fragestellungen zu verwertbaren Ergebnissen führt, ist es dennoch wichtig, einen Blick 
auf den Inhalt der einzelnen Ergebnisse zu werfen. 

Imprecise Phrases, also unpräzise Ausdrücke, die bemerkenswerter Weise vor allem 
bei Kafkas Ein Traum zu beobachten sind (5,3 %), könnten einerseits die Wahrnehmung 
des »Kafkaesken« in seinen Texten erklären, die vielleicht an der Uneindeutigkeit und der 
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sprachlichen Unbestimmtheit seiner sprachlichen (Erzähl)Strukturen liegt, was für die 
literarische These spricht und ihn damit als einen modernen Erzähltext klassifizieren wür- 
de. Jedoch unterscheiden sich in der Gesamtbetrachtung die Werte der Imprecise Phra- 
ses von Musil und Kafka kaum. 

Insgesamt lässt sich eine hohe Varianz bei Imprecise Phrases zwischen den untersuch- 
ten Erzähltexten von Kafka finden: Bei seiner früheren Erzählung Ein Landarzt ist der 
Wert (3,4 %), also genauso hoch wie bei der naturalistischen Erzählung Bahnwärter Thiel 
(ebenfalls 3,4 %). Wenn man nur diesen Parameter betrachten würde, spräche es einer- 
seits für eine Ununterscheidbarkeit von modernem und naturalistischem Text und lie- 
ferte ggfs. ein weiteres Argument für die Annahme einer Moderne als Makroepoche (Hy- 
pothese 2). Oder aber Kafkas Texte stellte es andererseits in die sprachliche Nähe von 
naturalistischen Texten, was für die historische These spräche. 

Eine höhere Dichte an Imprecise Phrases lässt sich auch bei dem naturalistischen Text- 
ausschnitt von Papa Hamlet (6,4 %) und Kafkas Ein Traum (5,3 %) beobachten, was in die- 
sem individuellen Vergleich ebenfalls zu der (hermeneutischen) Interpretation der Un- 
unterscheidbarkeit verleiten könnte. Allerdings sind es vor allem Adjektive wie »klein« 
und >grof, die in Papa Hamlet häufig vorkommen, die vom Programm ebenfalls als un- 
eindeutig bewertet werden (False Positive). In diesem Text ist aber die unterschiedliche 
Größe der inhaltlichen Thematik geschuldet. Diese Wörter sollten in einer zukünftigen 
Analyse herausgefiltert werden, um dort einen realistischeren Wert über die Density der 
Imprecise Phrases dort zu erhalten. Entgegen der Hypothese (1), dass im Naturalismus 
nach ästhetisch-programmatischen Aspekten eher weniger Imprecise Phrases zu erwar- 
ten wären, ist diese hier mit 4,9 % gegenüber 4,5 % Moderne sogar erhöht (vgl. Tabelle 1). 
Dies liegt aber bei Papa Hamlet vor allem wie bereits erwähnt an dem statistischen Ein- 
fluss der Anzahl der Adjektive »klein< und »groß« auf den Wert (6,4 %). 

Einen vagen Aufschluss über einen etwaigen minimalen Unterschied bezüglich 
der Eindeutigkeit und Uneindeutigkeit geben eventuell die durchschnittlichen Den- 
sity-Werte des Smells Vague Pronouns, mit 4,8% (Moderne) sind diese gegenüber 4,1% 
(Naturalismus) erhöht. 

Superlative finden sich am meisten in Kafkas Erstes Leid (1,2 %), welche hier als Merk- 
mal moderner Texte gesehen werden, ebenfalls erscheint hier die höchste Dichte an 
Komparativen (3,5 %). 

Insgesamt nutzen Kafka und vor allem Musil häufiger negative Formulierungen 
(1,3 %) als die Naturalisten (0,9 %) - vielleicht ein deutlicheres Unterscheidungsmerkmal 
zwischen literarischer Moderne und Naturalismus. Die Annahme war, dass Negationen 
in Bezug auf die literarische Moderne für gegensätzliche Positionen stehen könnten, 
was sich vielleicht nach weiteren zukünftigen Untersuchungen bestätigen könnte. Die 
Negationen Kafkas stechen insbesondere bei Vor dem Gesetz mit 1,8 % heraus. Ansonsten 
hat die Moderne eine höhere Wahrscheinlichkeit zu langen Sätzen (80,9 %), das liegt 
aber vor allem an Musil (87,5 %); Kafkas ältere Erzählungen Vor dem Gesetz (59,8 %) und 
Ein Landarzt (76,2 %) nähern sich hier eher dem Durchschnittwert des Naturalismus an 
(58,9 %). 
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Abb. 2: Smell Density (Imprecise Phrases). Alle Werte sind Density-Werte in 
Prozent (AVG=Mittelwert). In der Tabelle sind zum einen die Mittelwerte der 
Densities (Imprecise Phrases) von literarischer Moderne und Naturalismus an- 
‚gegeben sowie von den einzelnen Autoren. 
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Quelle: Visualisierung mit Excel 


Die Erzählung Granit von Adalbert Stifter stellt unter den Texten des Realismus bzw. 
Naturalismus in der Satzlange zwar einen Ausreißer dar (88,1%), da sie viele lange Sat- 
ze mit einer hohen Komma-Rate anzeigt, die vermutlich von den langen (Natur-)Be- 
schreibungen mit vielen Kommata, z.B. durch Aufzählungen stammen. Eine ähnlich ho- 
he Dichte erkennt das Programm aber auch bei Kafkas Erzählungen Ein Traum (91,0 %) 
und Erstes Leid (90,0 %). Bei der vielen wörtlichen Rede in Papa Hamlet zeigt sich die Den- 
sity von langen Sätzen stark reduziert (47,1%). 

Interessant ist noch das Ergebnis der Universal-Quantifiers (immer, niemals usw.), 
denn dieses ist beimodernen Texten (1,0 %) höher als bei naturalistischen Texten (0,5 %). 
Hier fallen aber Kafkas Erzählungen ins Gewicht, insbesondere die Erzählung Vor dem 
Gesetz (1,4 %). Dies könnte ein Spezifikum der Texte Kafkas sein, wobei Musils Wert mit 
0,8 % ebenso über beiden Werten des Naturalismus liegt (beide bei 0,5 %). 


5 Diskussion der Ergebnisse entlang der Forschungsfragen 


Im Folgenden sollen die Ergebnisse der experimentellen Studie entlang der Forschungs- 
fragen diskutiert werden: 


151 


1. Sind die Epochen des Naturalismus und der literarischen Moderne” durch automa- 


tische Analyse abgrenzbar? (FF1) 


151 Im Folgenden nur noch Moderne. 
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Die Ergebnisse geben keine eindeutigen Unterschiede darüber her, dass eine klare Epo- 
chengrenze zwischen den Texten des Naturalismus und der Moderne gezogen werden 
kann (Hypthese 2). Allerdings sind Negationen (ggfs. als Audruck von gegensätzlichen, 
widerstreitenden Positionen) und Universal Quantifiers in Texten der Moderne im 
Vergleich zu Texten des Naturalismus tatsächlich überall etwas erhöht, außer der Wert 
der Negationen in Kafkas Erstes Leid, der dem Mittelwert des Naturalismus gleicht 
(0,9%). Auf der anderen Seite könnten die widersprüchlichen Unterschiede in den ver- 
schiedenen Smell-Ergebnissen auch bedeuten, dass die Filter des Qualicen Scout nicht 
fein genug eingestellt sind, um eindeutige sprachliche Unterschiede zwischen beiden 
Epochen zu erkennen. Es müssten außerdem mehr Texte aus beiden Epochen analy- 
siert werden. Um die These der Moderne als Makroepoche (Hypothese 2) verifizieren 
zu können, sollten weitere Texte bzw. Referenzkorpora aus der zweiten Hälfte des 18. 
Jahrhunderts bis heute hinzugezogen werden, um literarische Erzähltexte miteinander 
zu vergleichen, die einen größeren zeitlichen Abstand voneinander aufweisen (z.B. von 
Schiller und Kleist). Dies könnte nützlich sein, um beurteilen zu können, inwieweit die 
sprachliche Analyse des Tools auch zur Prüfung historischer Texte des 18. Jahrhunderts 


funktioniert.” 


2. Bietet die automatische Analyse Indizien, Kafkas Erzähltexte einer der 0.g. Epochen 
zuzuordnen? (FF2) 


Die Smellanalyse zeigt durchaus Unterschiede zwischen den Texten (etwa Superlative, 
Passive oder lange Sätze, siehe Tabelle 2). Diese Unterschiede variieren jedoch und glei- 
chen sich so häufig aus. Ob sie also eher dem individuellen Stil eines einzelnen Werkes 
oder dem Stil eines Autors oder sogar dem Stil einer Epoche zuzuordnen sind, bleibt 
daher offen. 

Eine andere mögliche Erklärung implizierte, dass Kafkas Texte als äußerst indivi- 
duelle oder individualsprachliche »Exoten« (besonders sein Text Vor dem Gesetz) tatsach- 
lich ungeeignet wären, bestehende epochale Kategorien zu repräsentieren. Des Weiteren 
zeigen sich einige Texte Kafkas in einigen Ergebniswerten als nicht eindeutig abgrenz- 
bar vom Naturalismus, ebenfalls nicht vom Realismus, was die historische These, zumin- 
dest teilweise, bestätigen würde. Insgesamt lässt sich feststellen, dass die Texte Kafkas 
sich auch untereinander stark voneinander unterscheiden. 


3. Bringt die Methode eindeutige Ergebnisse in Bezug auf o.g. Fragestellungen? Wie 
müssen die Anforderungen spezifiziert werden, um der literaturwissenschaftlichen 
Fragestellung zu genügen? Müssen die literaturwissenschaftlichen Fragestellungen 
angepasst und umformuliert werden? (FF3) 


152 Ein weiterer Test zur Unterscheidung von literarischen und nicht-literarischen Texten zeigte im 
Übrigen, dass das NLP-Programm sehr gut Unterschiede zwischen literarischen und nicht-litera- 
rischen Texten erkennt, was die These erhärtet, dass literarische Texte insgesamt eher uneindeu- 
tigere Referenzbezüge aufweisen als Sachtexte, die das Programm als qualitativ höher wertig be- 
wertet (vgl. die Ergebnisse dieses Zusatztests im Anhang im Downloadbereich auf GitHub). 
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Mögliche Antworten auf diese Frage und eine Evaluation der Anforderungen sowie der 
Nutzen von NLP-basierten Verfahren in der computationellen Analyse von literarischen 
Texten werden im nächsten Abschnitt (s. Abschnitt 6) diskutiert. 


6 Anforderungsspezifikation für die Analyse von literarischen Texten 
und Revision der literaturwissenschaftlichen Fragestellung 


Anforderungsspezifikationen können nach entsprechender hermeneutischer und quali- 
tativer Validierung der Ergebnisse (z.B. closereading) sowie manuellen Reviews und nach 
der Evaluation der voreingestellten Filterkategorien und -regeln erfolgen, die dann auf 
der Basis der Anforderungen angepasst und weiterentwickelt werden können. 

Insgesamt lässt sich nochmals feststellen, dass die statistische Größe des Korpus für 
aussagekräftige und repräsentative Ergebnisse zu klein ist. Es handelt sich um ein redu- 
ziertes Testkorpus, um den Nutzen des Tools für die computationelle Analyse von lite- 
rarischen Texten zu testen und Anforderungen für existierende technische Lösungen zu 
spezifizieren. 

Dennoch ermöglicht diese experimentelle Vorstudie, etwas genauer zu identifizie- 
ren, welche spezifischeren Analysen es brauchen würde, um die o.g. Forschungsfragen 
zu beantworten und ggfs. auf neue Art zu stellen. Dabei sind in zukünftigen Arbeiten aus 
unserer kombinierten Sicht aus Literaturwissenschaft und Informatik folgende Analy- 
sen sinnvoll und möglich umzusetzen: 


« Analyse der direkten und indirekten wörtlichen Rede, v. A. als prozentueller Anteil 
zur Identifikation der Figurenrede (‚dramatischer Modus.) 

+ Erkennung von Begriff/Gegenbegriffspaaren, Positionen und deren Negation (als wi- 
dersprüchliche Semantiken) 

e Analyse der Zeit und Chronologiken (Zeitangaben: Erzählzeit und erzählte Zeit; 
Ana-, Anti- und Achronie), Begriffe der Beschleunigung (Geschwindigkeitsangaben, 
zeitliche Adjektive, mathematische Relationen, Zeitbegriffe, Zahlwörter) 

e Superlative: Begriffe der Steigerung (Prinzip der Moderne nach Rosa) 

« Verweise auf Metafiktionalitat (deiktische und indexikalische Begriffe wie »dies«, 
»diese/s/r«, »hier«, »jetzt«, »ich«, »du« usw. als selbstreferentielle Verweise oder 
Metakommentare, Wiederholung als Verweis von einer Passage auf die andere nach 
Noth im Anschluss an Roman Jakobsons Theorie der sechs Sprachfunktionen'*?) 

+ Identitatsmarker/Gender-Aspekte: »mannlich</»weiblich: (Verhandeln von ge- 
schlechtlicher Identität) 

e Konjunktiv: Der Konjunktiv könnte wie bei Musil für den »Möglichkeitssinn« stehen, 
als Merkmal von modernem Erzählen 


Technisch gesehen, ist die Computerlinguistik gerade in einem rapiden Wandel. So- 
genannte Large Language Models (LLMs) in Form von generativen Transformern wie 
ChatGPT setzen auf das maschinelle Lernen großer Datenmengen (sog. Deep Learning) 


153 Vgl. Nöth: Selbstreferenz in systemtheoretischer und in semiotischer Sicht. 
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anstatt der expliziten Definition von Regeln. Maschinelles Lernen bringt allerdings 
weitere Unschärfe in das System, was im Anwendungsbereich der Qualitätssicherung 
häufig die Benutzerakzeptanz verschlechtert. Außerdem ist es zurzeit häufig nicht 
möglich, den Vorschlag eines Deep Learning Ansatzes nachzuvollziehen. Zu erklären, 
warum eine Stelle ein potentielles Problem beinhaltet, ist aber natürlich essentiell zur 
Behebung des Problems. Diese Probleme sind aber aus unserer Sicht für die o.g. Fra- 
gestellungen eventuell nicht so dominant. Weiterhin könnte es gelingen, die LLMs zu 
instruieren die 0.g. Metriken eigenständig zu berechnen, eine gewisse Fehlertoleranz 
vorausgesetzt. 

Die 11 angewendeten Smells, anhand derer die Texte analysiert wurden, kommen ei- 
gentlich aus dem Bereich Anforderungsanalyse, die eine andere Zielsetzung beinhaltet 
(s. Kap. 4). Um nur eins zufällig herauszugreifen: Zum Beispiel werden Superlative nicht 
als Mangel für die Qualität von Texten bewertet; hier dienten sie als Indikator für einen 
thematischen Sachverhalt: als Ausdruck eines (modernen) Steigerungsprinzips. Ausge- 
hend von der zugrundeliegenden Annahme, dass ähnliche Werte (Dichte/Findings) die 
Zugehörigkeit zu einer (gemeinsamen) Epoche anzeigen können, aber nicht müssen, da 
hier individuelle Unterschiede (z.B. die Texte von Kafka) eine erhebliche Rolle spielen 
können, liegt der Schluss nahe, dass die Filterkategorien und -regeln, die zur Erkennung 
von Findings genutzt werden, noch nicht optimal an die Gegebenheiten literaturwissen- 
schaftlicher Anforderungen in Bezug auf literarische Texte angepasst sind. Man müsste 
beijedem Parameter überlegen, wie sinnvoll dieser bei der Einordnung von literarischen 
Texten ist. 

Im Rahmen der Anforderungsspezifikation könnte überlegt werden, ob z.B. die Filter 
Abbreviations und Dangerous Slashes für zukünftige Analysen ausgeblendet werden kön- 
nen, da diese in Bezug auf die Fragestellung der Unterscheidbarkeit von Epochen zumin- 
dest keinen offensichtlichen hermeneutischen Mehrwert erkennen lassen. Im Gegensatz 
dazu zeigen sie auffällige Unterschiede beim Vergleich von literarischen und nicht-lite- 
rarischen Texten (z.B. am meisten bei »Bedienungsanleitung:).* 

Die Imprecise Phrases müssten an die literarischen Texte angepasst werden, denn 
Adjektive wie z.B. klein und groß, die in Papa Hamlet häufig vorkommen, werden wie 
schon erwähnt vom Programm ebenfalls als uneindeutig bewertet (False Positive), was 
den Ergebniswert verzerrt. Solche Adjektive müssten in einer zukünftigen Analyse her- 
ausgefiltert werden, um einen aussagekräftigen Wert über die tatsächliche Eindeutig- 
keit bzw. Uneindeutigkeit der verwendeten sprachlichen Konstruktionen zu erhalten. 
Eine Analyse der Frequenz des Konjunktivs könnte vielleicht im Textausschnitt von Ro- 
bert Musils Der Mann ohne Eigenschaften den »Möglichkeitssinn« operationalisieren, der 
ebenfalls ein Merkmal des modernen Erzähltextes darstellt. Der Konjunktiv wurde zwar 
indirekt durch die Imprecise Phrases miterfasst, sollte aber für diesen Zweck besser in 
einer eigenen Smell-Kategorie abgebildet werden. 

Für die weitere Spezifikation von Anforderungen könnten metafiktionale Verweise 
(als Kennzeichen von modernen Texten) in Frage kommen, die in Form von 1. deiktischen 


154 Vgl. Anm. 148. Triple Dots sind nur in Papa Hamlet zu finden. In Texten von Schnitzler haben diese 
beispielsweise eine bedeutungskonstituierende Funktion. 


87 


88 


Literaturwissenschaft und Informatik 


und indexikalischen Begriffen, 2. Wiederholung als Verweis einer Passage aufeine ande- 
re oder 3. selbstreferentielle Kommentare, nämlich solche, die die eigene Erzählung bzw. 
ihren fiktionalen Status betreffen, operationalisiert werden könnten.'°° Hierbei könnte 
man sich vielleicht an Jakobsons graduellen Sprachfunktionen orientieren, darunter die 


157 um der Forma- 


immanente »poetische Funktion«" und Merkmale der »Literarizität« 
lisierung der literaturwissenschaftlichen Kategorie »Metafiktionalitat« zu genügen. So, 
wie Fiktionalität als Unterscheidungsmerkmal zwischen literarischen und nicht-litera- 


rischen Texten gilt"? 


‚könnte sich Metafiktionalität als Kriterium für die Unterscheidung 
moderner und nicht-moderner Texte erweisen. 

Spezielle Klassifikationen für naturalistische Texte lassen sich vielleicht durch Adjek- 
tive der Beschreibung, technische oder naturwissenschaftliche Begriffe, physikalische, 
biochemische, »Dinge« der Natur, Landschaftsbeschreibungen, botanische Begriffe, be- 
stimmte »Beobachtungswörter« u.ä. operationalisieren und erweitern. 

Weitere Formalisierungen z.B. von Tautologien, Paradoxien und Widersprüchen fin- 
den sich auch in den Arbeiten von Niklas Luhmann." 

Kongruenzen und Abweichungen von ästhetisch-programmatischem Anspruch wie 
beim Naturalismus (für den programmatisch eine Reduktion von Verweisungsüberschüs- 
sen proklamiert wird) und tatsächlicher empirischer Umsetzung in den einzelnen natu- 
ralistischen Texten sind mit den vorliegenden Filtern des NLP-basierten Tools schwierig 
beizukommen. Literatur, auch des Naturalismus, ist tendenziell mehrdeutig und impli- 
ziert durch ihren fiktionalen Status immer semiotische und semantische Verweisungs- 
überschüsse. Das Problem ist hier grundsätzlich die Messbarkeit eines impliziten ästhe- 
tischen Programms in einem literarischen Text, was aber häufig die argumentative lite- 
raturwissenschaftliche und kunstphilosophische Basis für die Legitimierung von Epo- 
chenzugehörigkeiten bildet. Interessant wäre gegenüber derartig komplexen, schwie- 
rig zu operationalisierenden Fragestellungen eine Umformulierung von Fragestellun- 
gen, die nicht die traditionellen, an ästhetischen Kriterien sich orientierenden, Klassifi- 
zierungen überprüfen, sondern Klassifizierungen wie die oben vorgeschlagenen in den 
Blick nehmen. Gegebenenfalls könnte mit weiteren Methoden wie z.B. der Anwendung 
von Distanzmaßen oder Clusterbildungen durch Machine Learning gearbeitet werden. 

Kafka hat kein »echtes< ästhetisches Programm geschrieben, dort bezieht sich die 
Forschung auf einen (paratextuellen) Tagebucheintrag (Exegese:) und eine paradigma- 
tische Inanspruchnahme der Türhüterlegende durch Derrida. Es könnte sich aber dabei 


155 Zum Versuch einer Operationalisierung von Metakommentaren im Anschluss an Noth, vgl. Lucke: 
Schillers Asthetische Briefe als Literatur, hier Kap. 5. 

156 Jakobson, R. (1979): Linguistik und Poetik. In: Holenstein, E, Schelber, T. (Hg.): Poetik. Ausgewählte 
Aufsatze 1921-1971, Frankfurt a.M., S. 83-121, S. 93f. 

157  Vgl.Jakobson: Linguistik und Poetik; Horn, E., Menke, B., Menke, C. (Hg.) (2006): Literatur als Phi- 
losophie - Philosophie als Literatur, München; Winko, S. (2009): Auf der Suche nach der Weltfor- 
mel. Literarizitat und Poetizitat in der neueren literaturtheoretischen Diskussion. In: Winko, S./ 
Jannidis, F./Lauer, G. (Hg.): Grenzen der Literatur. Zum Begriff und Phänomen des Literarischen, 
Berlin/New York, S. 374-396. 

158 Vgl. Marsden, P. (2004): Zur Analyse der Zeit. In: Peter Wenzel (Hg.): Handbuch. Einführung in die 
Erzähltextanalyse. Kategorien, Modelle, Probleme. Trier, S. 89-110, hier S. 93f. 

159 Vgl. das entsprechende Kapitel in Lucke: Ästhetische Briefe als Literatur. 
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um ein folgenschweres Missverständnis handeln, das weiter tradiert und reproduziert 
wird. Weitere Analysen mit digitalen Methoden erscheinen sowohl in diesem speziellen 
Zusammenhang, als auch bei der allgemeinen Frage, welche Zeitspanne(n) genau die Mo- 
derne und ihre vielschichtigen (Transformations-)Prozesse umfasst, sinnvoll und legi- 
tim zu sein. Eine weitere interessante Frage, die durch die quantitative Analyse aufge- 
worfen wird, ist die nach der speziellen Bewandtnis und Besonderheit von Kafkas Erzäh- 
lung Ein Landarzt. 


7 Evaluation des Nutzens von NLP-Techniken anhand von voreingestellten 
Filter-Regeln für die Literaturtextanalyse 


Das NLP-basierte Tool, das den originären Nutzen hat, die sprachliche Qualität von An- 
forderungen und Testfällen in der Software-Entwicklung zu analysieren mit einem klar 
definierten Zweck, z.B. Informationen zu kommunizieren, erkennt keine nennenswer- 
ten Unterschiede zwischen den Epochen des Naturalismus und der Moderne. Das liegt 
zu einem großen Teil an den voreingestellten Filter-Regeln, die für andere Zwecke defi- 
niert wurden, und am fehlenden Fine-Tuning für die literaturwissenschaftlichen Anfor- 
derungen, z.B. das Erkennen von wörtlicher Rede. Dieses Merkmal wird implizit von den 
bestehenden Kategorien miterfasst in »Satzlänge«. Denn bei Papa Hamlet, wo sehr viel 
wörtliche Rede verwendet wird, ist das Kriterium der Satzlänge signifikant reduziert. 
Es wäre möglich, das Programm an die Anforderungen der »wörtlichen Rede« technisch 
anzupassen, da es grammatikalisch-linguistisch leicht zu erkennen wäre. Als »unprazise 
Ausdrücke: findet das Programm beispielsweise »klein« und »groß«, die die Gesamtzahl 
der Vorkommnisse (Findings) insgesamt erhöhen, im Fall von Papa Hamlet aber heraus- 
gefiltert werden sollten, da es thematisch um den »kleinen Ole«, die »kleine Mieze« oder 
den »kleinen Fortinbras« im Gegensatz zum »großen Thienwiebel« geht. 

Zusammenfassend lässt sich feststellen, dass sich eine Unterscheidbarkeit von 
Naturalismus und Moderne auf der Basis der durch das Tool vordefinierten Kriterien 
für die Ambiguität von Texten und entsprechender Filter zwar prinzipiell messen lässt, 
auch wenn in der vorliegenden Studie bei einzelnen Smells keine deutlichen Unter- 
schiede bzw. sogar widersprüchliche Ergebnisse (z.B. der Imprecise Phrases und Vague 
Pronouns) gemessen werden konnten. Die Smells müssten auf jeden Fall fein- und 
nachjustiert werden, um den spezifizierten Anforderungen i.S. der genannten Frage- 
stellungen genauer zu entsprechen. Sie liefern jedoch einige überraschende Indizien 
in Bezug auf Kafkas Text »Ein Landarzt«, die eine Nähe zu einer früheren Sprachstufe 
nahelegen (historische These). 

Papa Hamlets kanonischer Erfolg kann auch nicht unbedingt auf die Passung von 
eigenem ästhetischen Programm (konsequenter Naturalismus oder positivistische Äs- 
thetik) und sprachlicher Entsprechung zurückgeführt werden. 

Da es sich aber nur um vorläufige Ergebnisse auf der Basis der Anforderungsspe- 
zifikation handelt, kann erst in weiteren Analysen mit nachjustierten Filtern und ent- 
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sprechend angepasster Filterregeln'‘° 


sowie an einem größeren Korpus mit historischen 
Texten zwischen dem 18. und 20. Jahrhundert validiert werden, ob vielleicht weitere Evi- 
denzen für die zweite Hypothese (Moderne als Makroepoche) vorliegen. Die Ergebnisse 
sind natürlich abhängig von (nicht) adäquaten Filtereinstellungen des Programms so- 
wie nicht zuletzt von der Ausreifung von NLP-Technologien und Bibliotheken sowie ins- 
gesamt vom aktuellen technischen Stand der (automatischen) Sprachverarbeitung des 
Deutschen. 

Ein Vergleich mit einer Analyse anhand der Stilometrie und mit einigen zusätzlichen 
Texten wurde ebenfalls durchgeführt (s. Anhang im Downloadbereich). Die Ergebnisse 
in Bezug auf die Distanzen und Ähnlichkeiten waren in etwa mit den durch die NLP- 
basierte Methode produzierten Ergebnissen vergleichbar." 


8 Distant Reading, Scalable Reading und Density 


In der Studie ging es nicht um eine Rekonstruktion von Epochenkategorien, sondern um 
ihre Problematisierung, die aus unserer Sicht eine fruchtbare Basis für die transdiszi- 
plinäre Zusammenarbeit bilden kann, insbesondere für die Verbindung von Distant und 
Close Reading. Denn die Integration eines anschließenden Close Readings in Form von 
manuellen Reviews, bei denen der/die User:in interagieren kann, und die nachträgliche 
Evaluation von Findings als Indikatoren für bestimmte thematische und semantische 
Sachverhalte schließen an iterative Verfahrensweisen in beiden Disziplinen an: zum ei- 
nen an den erweiterten hermeneutischen Zirkel nach Gius und Jacke!“ und zum anderen an 
das erweiterte Wasserfallmodell, auch Spiralmodell (nach Boehm 1986). Der interaktive Feed- 
back-Mechanismus des Tools vereinigt auf diese Weise produktiv beide Ansätze des Di- 
stant und Close Reading. Durch Scalable Reading'“ könnte zwar der Einfluss der hohen 
Prozentzahlen von langen Sätzen (als hohe Anzahl an Findings pro Satzzeichen) auf das 
Gesamtergebnis vielleicht gelöst werden, sinnvoller für unsere Zwecke erscheint aber die 
Density im Verhältnis zu allen Wörtern oder Phrasen (im Nenner) zu messen, nicht zu 
allen Satzzeichen. 

Man muss bei zukünftigen Studien auch berücksichtigen, dass es sich bei Litera- 
tur um eine hoch artifizielle Sprache handelt; man denke beispielsweise an Gedichte, 


160 Vgl. zur hohen Abhängigkeit der automatischen Smell-Erkennung von der Präzision und Subjekti- 
vität von Qualitätsanforderungen (> 80 %) neben weniger einflussreichen Faktoren wie Kontext- 
wissen, semantischem Verstehen von natürlicher Sprache auch Femmer u.a.: Which requirements 
artifact quality defects are automatically detectable? Eine der Hauptaufgaben in der Literaturwis- 
senschaft sollte demnach die Formulierung von präzise(re)n Anforderungen an existierende tech- 
nische Lösungen sein. 

161 Vgl. dazu auch die Abbildungen im Beitrag von Johannes im vorliegenden Band. Wir gehen davon 
aus, dass der Vergleich derjeweiligen Ergebnisse aus verschiedenen Methoden eine Grundlage für 
die anschließende (manuelle) Validierung generiert. Ob ein Ergebnis umso »valider« ist, wenn es 
durch unterschiedliche Methoden hervorgebracht wird, bleibt zu diskutieren. 

162 Gius, E./Jacke, J. (2017): The Hermeneutic Profit of Annotation: On Preventing and Fostering Dis- 
agreement in Literary Analysis, In: International Journal of Humanities and Arts Computing 11.2, 
S. 233-254, S. 240. 

163 Vgl. Weitin: Digitale Literaturgeschichte, S. 116. 


Henning Femmer und Alexa Lucke: Über den Nutzen des Natural Language Processing 


die auch Themen der gesellschaftlichen Selbstreflexion codieren und »verdichten«. Der 
heuristische Wert narratologischer und (semi-)automatischer Analysen in Kombination 
mit hermeneutischen Verfahren wurde bereits von Gius und Jacke (2015) untersucht und 
könnte auch auf das hier beschriebene Verhältnis von Sprachverarbeitung und Herme- 
neutik übertragen werden." 


164 Vgl. Gius, E., Jacke, J. (2015): Informatik und Hermeneutik. Zum Mehrwert interdisziplinärer Text- 
analyse. In: Grenzen und Möglichkeiten der Digital Humanities. Hg. von Constanze Baum/Thomas 
Stacker. 2015 (=Sonderband der Zeitschrift für digitale Geisteswissenschaften, 1). PDF Format ohne 
Paginierung. Als text/html abrufbar unter DOI: 10.17175/sbo01_006. 
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Computergenerierter Zufall als kreatives Moment 
in Malerei und Literatur 

Potentiale und Grenzen von Machine-Learning-Modellen 
am Beispiel von GPT 


Andreas de Vries (Informatik) 


1 Einleitung 


Und so ein Hirn, das trefflich denken soll, 
wird künftig auch ein Denker machen. 
Entzückt die Phiole betrachtend 

J. W. von Goethe (1831), Faust Il, 6869-6870 


Goethe wusste es schon vor 200 Jahren: Der Mensch wird künstliche Intelligenzen 
erschaffen. Allerdings existieren die heutigen Systeme künstlicher Intelligenz nicht in 
einer Phiole, sondern in luftgekühlten und auf Platinen gesteckten Mikroprozessoren. 
Auch wissen wir nicht, ob bei ihrer Entstehung Mephisto anwesend war. Kluge Köpfe 
wie Stephen Hawking zumindest scheinen davon ausgegangen zu sein.” 

Künstliche Intelligenz - meist kurz: KI, oder englisch: AI - wird in mehr und mehr 
Bereichen des wissenschaftlichen und gesellschaftlichen Lebens eingesetzt. Im Sinne 
dieser Anwendungen ist KI also als eine Hilfstechnologie zu betrachten. Nun hat nach 
McLuhan jede Technologie auch Auswirkungen auf die kognitive und die soziale Orga- 
nisation der Menschen, die sie nutzen.” Sie erhebt sich also immer über den Charakter 
einer Anwendung und gestaltet Strukturen. 

Gestaltet KI auch Kunst, Musik, Poesie? Spätestens mit den Werken von Refik Ana- 
dol? ist es so, bei denen man sich sogar fragt: Wer hat sie eigentlich erschaffen, der Künst- 
ler oder die Software? Die grundsätzliche Frage lautet also: Kann KI Kunst erschaffen? 


1 https://www.telegraph.co.uk/news/science/science-news/12107623/Prof-Stephen-Hawking-disas 
ter-on-planet-Earth-is-a-near-certainty.html, https://www.bbc.com/news/technology-37713629 

2 Vgl. McLuhan (1964), S. 7. 

3 Refik Anadol, türkisch-amerikanischer Medienkünstler und Architekt, https://refikanadol.com/, h 
ttps://de.wikipedia.org/wiki/Refik_Anadol 
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Diese Frage ist zu groß, als dass dieser Beitrag dafür eine Antwort finden könnte. Aber 
zumindest einem wichtigen Aspekt dieser Frage wird er nachgehen: Wie kann Software 
Kreativitat beeinflussen? Die Hypothese lautet: Es ist das durch Software gezielt einge- 
brachte Moment des Zufalls, das zur Kreativitat beisteuern kann. Ob Software damit 
kreativ ist, bleibt offen. Computergenerierter Zufall spielt eine wesentliche Rolle in so 
unterschiedlichen Bereichen wie der Malerei von Gerhard Richter und der Erzeugung 
von Texten durch ChatGPT. 

Dieser Beitrag gliedert sich wie folgt. Zunächst wird in Abschnitt 2 eine Werktechnik 
des Malers Gerhard Richter betrachtet, die bewusst computergenerierten Zufall einsetzt 
und eine erste Einordnung der Rollen von Software und Mensch bei der Schaffung von 
Kunstwerken zulässt. Nach einem einführenden Überblick über Grundlagen und grund- 
sätzliche Funktionsweisen aktuell eingesetzter KI-Systeme in Abschnitt 3 und einer Dar- 
stellung von Methoden des Neural Language Processing in Abschnitt 4 wird in Abschnitt 5 
das Sprachmodell GPT anhand von Beispieldialogen untersucht und wesentliche Merk- 
male, Grenzen und Potentiale aktuell verfügbarer Sprachmodelle aufgezeigt. Abschlie- 
ßend wird in Abschnitt 6 die These diskutiert, dass die wahrgenommene Kreativität von 
Sprachmodellen durch die zugrunde liegenden statistischen Wahrscheinlichkeitsvertei- 
lungen entsteht und damit dieselbe Ursache wie schon ein halbes Jahrhundert zuvor bei 
Richters Farbtafeln hat: den computergenerierten Zufall. 


2 Zufall als Werktechnik in der Malerei Gerhard Richters 


Gerhard Richter gehört zu den bedeutendsten Künstlern des frühen 21. Jahrhunderts. 
In seinem umfangreichen Werk experimentierte er mit verschiedenen, oft neuartigen 
Werktechniken. Im Februar 1961, wenige Monate vor dem Bau der Mauer, aus Dresden 
über Westberlin nach Düsseldorf geflohen, entwickelte er, frei von Zensur oder Bestim- 
mung, in den folgenden Jahren fast das gesamte Spektrum an Methoden und Motiven 
seines CEuvres: Gemälde nach Fotos, Farb- und Grauschlieren, graue monochrome Ta- 
feln und gerasterte Farbtafeln.* Nur die ebenso bekannten, mit einem Rakel gemalten 
abstrakten Bilder entstanden erst später, nämlich etwa ab den 1980er Jahren.° 

1966 malte Richter seine ersten Farbtafeln, indem er handelsübliche Musterkarten 
aus Farbfachgeschäften als Vorlage abmalte und in einem gleichmäßigen Gitter per Zu- 
fall anordnete. Diese Raster bestanden dabei mal aus gleichen Rechtecken, mal aus Qua- 
draten. Aus dieser Phase sind 16 Bilder dokumentiert. 

In einer zweiten Phase malte Richter 1971 24 weitere Farbraster. Von 1973 bis 1974 ent- 
standen noch einmal 26 Bilder, unter anderem die Werke 1024 Farben’ und 4096 Farben’, 
in denen aus einer vorgegebenem Farbpalette Einzelquadrate per Zufall eingefärbt und 


Vgl. Godfrey & Serota (2012), S. 86f; Goebel (2010), S. 13f. 

Camille Morineau in: Godfrey & Serota (2012), S. 123. 

https: //www.gerhard-richter.com/de/art/paintings/abstracts/colour-charts-12/ 

Richter WVZ 356-3, https://www.gerhard-richter.com/de/art/paintings/abstracts/colour-charts-1 
2/1024-colours-6083/ 

8 Richter WVZ 359, https://gerhard-richter.com/de/art/paintings/abstracts/colour-charts-12/4096-c 
olours-6089/ 
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zu einem quadratischen Raster angeordnet wurden. Bei den Bildern dieser Phase taucht 
jede Farbe mehrfach auf. Richter scheint spätestens hier erstmals den Computer zur zu- 
fälligen Farbauswahl verwendet zu haben.’ Im Jahr 2007 entstand mit dieser Technik 
das Bild 4900 Farben’? und das monumentale Richter-Fenster im Südquerhausfenster 
des Kölner Doms mit insgesamt etwa 11.500 Einzelquadraten aus einer Farbpalette von 
72 Farbtönen." Nur die Auswahl der Farben der einen Hälfte des Fensters wird durch 
ein Computerprogramm per Zufall erzeugt, die andere Hälfte wird spiegelsymmetrisch 
dazu angeordnet.” 

Wer aber hat denn nun die Bilder dieser Phase oder das Richter-Fenster am Kölner 
Dom erschaffen? Ein Programm oder der Künstler? Richter betonte oft, dass der Zufall 
in seinem Werk als kreatives Moment eine wichtige Rolle spiele. »Zufall als Thema und 
Methode. Methode, um etwas Objektives entstehen zu lassen, Thema, um ein Gleichnis 
(Bild) zu schaffen für unsere Uberlebensstrategie.«” »Etwas entstehen lassen, anstatt 
kreieren; also keine Behauptungen, Konstruktionen, Erstellungen, Ideologien - um so 
an das Eigentliche, Reichere, Lebendigere heranzukommen, an das, was über dem Ver- 
stand ist ... Jetzt die Einbeziehung des Zufalls (wiederum nie Automatismus).«'* »Es war 
für mich interessant, den Zufall in eine ganz starre Ordnung zu bringen.«” Der Zufall in 
Richters Farbtafeln ist nicht beliebig, sondern tritt in einem streng vorgegebenen Rah- 
men ein: Ein festes Raster ist gegeben, im Domfenster sogar strenge Spiegelsymmetrien, 
ebenso die Palette der möglichen Farben; lediglich die Farbauswahl selbst ist Produkt des 
Zufalls. 


Die Anordnung der Farbtöne auf den Feldern erfolgte per Zufall, um eine diffuse, 
gleichgültige Gesamtwirkung zu erzielen, während das Detail anregend sein kann. 
Das starre Raster verhindert Figurationen, obwohl diese mit Anstrengung sichtbar 
werden können. Diese Art von künstlichem Naturalismus ist ein Aspekt, der mich fas- 
ziniert wie die Tatsache, dass, wenn ich alle möglichen Permutationen gemalt hätte, 
das Licht über 400 Billionen Jahre bräuchte, um vom ersten bis zum letzten Bild zu 
kommen."® 


Ein Nebenaspekt aus informatischer Sicht: Echten Zufall kann ein Computer nicht er- 
zeugen. Der von einem Computer generierte Zufall ist nur ein Pseudozufall, also simu- 
liert. Der Grund ist, dass ein Computer nur deterministisch arbeiten kann. Für den si- 
mulierten Zufall werden Pseudozufallszahlengeneratoren (PRNG) verwendet, also Algo- 
rithmen, die Folgen von zufällig aussehenden Zahlen generieren, deren Werte von ei- 


9 Vgl. Museum Folkwang (2017), S. 24f., 28ff. 

10 Richter WVZ 901, https://www.gerhard-richter.com/de/art/paintings/abstracts/colour-charts-12/ 
4900-colours-14891/ 

11. Vgl. Museum Ludwig & Metropolitankapitel der Hohen Domkirche Köln (2017), S. 28, 40f., 48. 

12 Vgl. ebd., 5.7, 48. 

13 Richter »Notiz 3.11.89«, zit.n. Pelzer in: Museum Ludwig & Metropolitankapitel der Hohen Dom- 
kirche Köln (2017), S. 67. 

14 Richter 1985, zit.n. Pelzer (2017), S. 68. 

15 Richter 1993, zit.n. Pelzer (2017), S. 74. 

16 Richter 1993, zit.n. Pelzer (2017), S. 77. 
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nem Startwert (»Seed«) abhängen, der sich wiederum typischerweise aus der aktuellen 
Systemzeit des Computers ergibt und daher verschieden von praktisch allen vorher be- 
stimmten ist. 


Abb. 1: 4900 Farben nach Gerhard Richter. Kunstwerk oder Plagiat? 


Quelle: eigene Darstellung, modifiziert nach https://www.gerhard-richter 
.com/de/art/paintings/abstracts/colour-charts-12/4900-colours-14891/ 


Da jede der gängigen Programmiersprachen einen solchen Pseudozufallszahlenge- 
nerator bereitstellt, ist es nicht schwer, ein Programm zu schreiben, das Richters Werk- 
technik implementiert und Farben aus einer vorgegebenen Farbpalette in einem Raster 
per Zufall anordnet. In Abbildung 1 ist die Ausgabe Produkt eines solchen Programms 
dargestellt, das frei verfügbar unter https://vriesa.github.io/arts/Richter.htmlist. Es ba- 
siert aufeiner Palette von 16 Farben, die in Abbildung 2 dargestellt ist. 


Abb. 2: Die Abbildung 1 zugrunde liegende Palette von 16 Farben und deren RGB-Codes 


#880000 #FF0000 #FF4500 #FFD700 #FFFFOO #008000 #228822 #006400 #00BFFF #1E90FF #4169E1 #0000FF #000080 #480082 #800080 #C0004C 


Quelle: eigene Darstellung 
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Hier stellt sich die Frage noch viel mehr: Wer konkret hat das Werk in Abbildung ı 
geschaffen? Der Computer, der Programmierer, oder gar Gerhard Richter? Ist das nun 
Kunst oder ein Plagiat?” 


3 Künstliche Intelligenz im Überblick 


Ein KI-System ist eine Software, die automatisiert - »maschinell« - lernen kann. Dabei 
konnten schon zum Teil spektakuläre Ergebnisse erreicht werden: 


e Siege in Brett- oder Computerspielen gegen menschliche Weltklassespieler, z.B. Al- 
phaGo im März 2016 gegen den Koreaner Lee Sedol im Brettspiel Go." 

e Erschaffung künstlerischer Werke, z.B. von klassischer Musik”, Gemälden”°, aber 
auch von fiktiven Texten”. 

e Automatische Prüfung von Buchmanuskripten darauf hin, ob sie das Potential für 
Bestseller haben (z.B. mit QualiFiction).” 

e Deep Fake: echt wirkende Animationen bekannter Persönlichkeiten, z.B. des briti- 
schen Premiers Johnson”. 


Angesichts dieser verblüffenden, scheinbar kognitiven Leistungen von Computerpro- 
grammen sagen einige Stimmen bereits die »technologische Singularität« voraus, d.h. 
den Augenblick, ab dem eine Maschine intelligenter als die Menschheit insgesamt und 
uns damit weitüberlegen sein wird.”* Diese These ist allerdings durchaus umstritten. Sie 
basiert auf dem Begriff einer »starken KI«, also eines Computerprogramms, das »wirk- 
lich« intelligent ist und mindestens auf Augenhöhe mit dem Menschen schwierige Auf- 
gaben übernehmen kann. Demgegenüber gehören jedoch alle bisher funktionierenden 
Systeme zur sogenannten »schwachen KI«, die auf konkrete Problembereiche speziali- 
siert sind.” 


17 Die Frage ist an dieser Stelle selbstverständlich überspitzt formuliert. Natürlich handelt es sich 
nicht um ein Plagiat im strengen Wortsinne, denn durch die Zufälligkeit ist genau diese Anord- 
nung der 4900 Farben sicher einzigartig. Im Sinne eines Geschmacksmusters allerdings sieht es 
etwas anders aus. Der Verfasser erklärt daher ausdrücklich, hier eine Werktechnik von Gerhard 
Richter zur reinen Illustration und Verdeutlichung tief liegender Fragen eingesetzt zu haben und 
erhebt keinen künstlerischen Anspruch oder erkennt hier eine nennenswerte Schöpfungstiefe. 

18 _ https://de.wikipedia.org/wiki/AlphaGo_gegen_Lee_Sedol 

19 _ https://youtu.be/H6Z2n7BhMPY 

20 https://www.christies.com/lot/lot-edmond-de-belamy-from-la-famille-de-6166184/ 

21 https://watt-ai.github.io/demos/gptz (frei verfügbare Demoversion; es gibt allerdings aktuellere 
und deutlich leistungsfähigere Programme) 

22 Nina George (2019), buchszene.de, 21. November 2019 https://buchszene.de/kuenstliche-intellige 
nz-essay-nina-george/ 

23 _ https://youtu.be/30NvDCizcL8: Johnson empfiehlt seinen damaligen politischen Gegner James 
Corbyn für das Amt des Premierministers; siehe auch https://futureadvocacy.com/deepfakes/ 

24  https://de.wikipedia.org/wiki/Technologische_Singularitat 

25 Vgl. Russell & Norvig (2022), S. 1032. 
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Vertreter:innen der schwachen KI haben gar nicht den Anspruch oder auch nur die 
Erwartung, dass Computersysteme »intelligent« sein oder werden könnten.” Dennoch 
werden solche Systeme in ihren spezialisierten Aufgabenbereichen immer komplexere 
Probleme lösen, für die bislang Intelligenz oder Erfahrung nötig war. In diesem Sinn 
stehen wir daher in der Tat erwartbar vor einer technologischen Revolution: der Mecha- 
nisierung geistiger Arbeit, ähnlich wie nach Erfindung der Dampfmaschine durch James 
Watt die Mechanisierung körperlicher Arbeit und damit die Industrialisierung begann. 
Einige aktuell erfolgreiche Einsatzgebiete von KI sind: 


e Computer Vision: Objekterkennung (z.B. Verkehrszeichen für Fahrassistenzsysteme), 
Gesichtserkennung (z.B. Identifikation beim Flugzeugboarding), Nachverfolgung 
von Objekten in Bewegungsabläufen (z.B. räumliche Zuordnung von Fahrzeugen 
und Personen im Verkehrsraum). 

« Verarbeitung natürlicher Sprache (Natural Language Processing, NLP): maschinelle Über- 
setzungen (Google Translate, DeepL), akustische Spracherkennung (Siri, Alexa, Cor- 
tana, Google Assistant). 

e Wissenschaft: Medizin (Krebserkennung, Tomographie-Auswertungen, Pflegerobo- 
ter), Astronomie (Gravitationswellenmessungen LIGO 2017), Mathematik (Theorem- 
beweiser, Lösen partieller Differentialgleichungen). 

+  Text-Mining: Textsuche nach ungenau oder falsch eingegebenen Suchbegriffen. 

« Data Mining: Erkennen von Zusammenhängen in großen Datenbeständen (Big Data). 


3.1 Lernarten von KI-Systemen 


Abstrakt betrachtet ist ein KI-System ein statistisches Modell, das »lernt«, indem es sei- 
ne Modellparameter an Beobachtungsdaten der Außenwelt anpasst. Das geschieht ent- 
weder anhand gegebener Trainingsdaten oder anhand einer Optimierungsfunktion. Es 
gibt drei wesentliche Arten des Lernens: 


+  Überwachtes Lernen: Die Trainingsdaten enthalten bereits die korrekten Ergebnisse 
(»Zielwerte«), vergleichbar dem Lernen für eine Klausur mit Musterlösungen; Bei- 
spiele sind lineare und nichtlineare Regressionen, Zeitreihenanalysen, Klassifikatio- 
nen. 

e  Umüberwachtes Lernen: Das System stellt die Parameter selbständig ein, es gibt keinen 
»Trainer« oder »Lehrer«, der sagt, was herauskommen soll; Beispiele sind Klassifika- 
tionen (»Bayes-Klassifizierer«) oder Clusterungen (»k-means-Algorithmus«). 

e  Bestärkendes Lernen (Reinforcement Learning): Das System lernt selbständig anhand ei- 
ner reellwertigen Erfolgsfunktion, mit der immer wieder variierte Strategien durch 
Abgleich mit dem jeweils erreichten Ergebnis bewertet werden und so die beste 
Strategie ermittelt wird. Dabei kann sich sogar die ganze Konfiguration des Modells 
(die Einstellung der »Hyperparameter«) ändern. Beispiele dieses Lernansatzes sind 


26 Damit sparen sie sich gewissermaßen auch die schwierige Aufgabe, den Begriff Intelligenz präzise 
zu definieren. 
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Deep-Learning-Netze für Brettspiele (z.B. AlphaZero”’), die anhand der gegebenen 
Spielregeln in der Trainingsphase immer wieder gegen sich selbst spielen und sich 
so optimieren. 


Die meisten der heute verwendeten KI-Systeme sind selbstlernend, lernen also unüber- 
wacht oder bestärkend. Oft wird aber auch eine Mischung der Lernarten angewandt, 
indem ein KI-System mit überwachtem Lernen vortrainiert wird, bevor es dann veröf- 
fentlicht wird und dann unüberwacht weiter lernt. 

Oft aber lernen KI-Systeme auch nach ihrer Veröffentlichung und im alltäglichen Ge- 
brauch überwacht weiter. Zu erkennen ist dies daran, dass der Anwender eine korrek- 
te Lösung eingeben kann. Beispiele dafür sind Spamfilter, die durch die Nutzermarkie- 
rungen lernen, welche Mail Spam ist und welche nicht, oder die Gesichtserkennung in 
den Fotoverwaltungsprogrammen, in denen den Gesichtern Namen zugeordnet werden 
können. 

Ein speziell für linguistische Anwendungen gebräuchliche Testmethode eines trai- 
nierten Modells ist das Zero-Shot Learning. Hier wird geprüft, ob das System korrekte Bei- 
spiele als korrekt klassifiziert, die nicht in der Trainingsmenge waren. Für Systeme der 
Textgenerierung ist ein gutes Zero-Shot-Lernverhalten wesentlich, um nicht nur die ein- 
gegebenen Trainingsdaten zu wiederholen, sondern auch »neue«, aber korrekte Sätze zu 
erzeugen. 


3.2 Künstliche neuronale Netze 


Das flexibelste der aktuell verwendeten KI-Systeme sind künstliche neuronale Netze. Sie 
sind dem menschlichen Gehirn nachempfunden und setzen sich aus »Neuronen« ge- 
nannten Recheneinheiten zusammen. Im Gegensatz zu biologischen Gehirnen jedoch 
hat ein künstliches neuronales Netz in der Regel eine deutlich einfachere, in Schichten 
und oft hierarchisch strukturierte Netzwerktopologie, wie in Abbildung 3 skizziert. Es 
gibt eine Eingabeschicht, verborgene innere Schichten und eine Ausgabeschicht. 

Die Eingabeschicht besteht aus Neuronen, die Signale von außen aufnehmen und 
an die verknüpften Nachbarneuronen weitergeben. Die inneren Neuronen empfangen 
Signale von verbundenen Eingabeneuronen und berechnen daraus das Signal, das sie an 
die verknüpften Neuronen senden. Die Neuronen der Ausgabeschicht schließlich geben 
ihre Signale als Ergebnis der Verarbeitungen nach außen ab. 

Ein einzelnes Neuron ist schematisch in Abbildung 4 dargestellt. In der Regelwerden 
alle Neuronen eines neuronalen Netzes durchnummeriert, hier hat es die Nummeri. 


27 https://de.wikipedia.org/wiki/AlphaZero 
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Abb. 3: Netzwerktopologie eines typischen neuronalen Netzes 


Eingabe- verborgene Schichten Ausgabe- 
schicht schicht 


Quelle: eigene Darstellung 


Abb. 4: Schematische Darstellung eines künstlichen Neurons 


X1 


X2 


Neuron i 


Xn 


Quelle: eigene Darstellung 


Es erhält die Signale xı, ., Xn seiner eingebenden Neuronen mit individuellen Verstär- 


kungs- oder Dampfungsfaktoren w,;, ..., Wni, den »Gewichten«. Das Neuron berechnet 


die mit diesen Faktoren gewichtete Summe der Eingangssignale und wendet daraufeine 


spezifische Aktivierungsfunktion dan. Der Ergebniswert y; dieser Berechnung wird nun 


als Ausgangssignal an die Nachbarneuronen gesendet. Die Aktivierungsfunktion wirkt 


also als digitaler Schalter, der bei ausreichend hohem Eingabewert auf Eins - also auf 


»An« - schaltet: Das Neuron »feuert«. Die gewichtete Summe kann kurz als Vektorglei- 


chung wi x geschrieben werden, wobei w;" der aus den Gewichten w,;, ..., W„i gebildete 


Zeilenvektor ist. Gängige Aktivierungsfunktionen sind in der Übersicht in Abbildung 5 


angegeben. 
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Abb. 5: Gängige Aktivierungsfunktionen eines künstlichen Neurons”? 


Heaviside- oder Stufenfunktion: Vorzeichenfunktion (signum, sgn): 


0 wennx<0 —] wennx<0 
a 1 wennx20 J ọ(x)=4 0 wennx=0 
u l wennx>0 


ReLU (rectified linear unit): Lineare Funktion: 


_)J 09 wennx <0 Q(x) =x = 
(x)= { x wennx20 al, 


Sigmoid oder logistische Funktion: Tangens hyperbolicus: 


l 
9(x) = lte a (x) =tanhx -r 


Die letzten drei dieser Funktionen sind differenzierbar: 


linear: P’(x)=1, logistisch: (x) = (x): (1—ọ(x)), tanh: ọ'(x)= 1- ọ?°(x). | 


Quelle: Patterson & Gibson (2017), S. 65ff., Russell & Norvig (2022), S. 803f. (eigene Darstellung) 


Die linke Spalte zeigt dabei Funktionen, die für negative Werte des Arguments x ver- 
schwinden oder zumindest schnell gegen Null konvergieren, für positive Werte aber - 
plötzlich oder allmählich - auf Eins hochgehen. Die rechte Spalte zeigt Aktivierungs- 
funktionen, die punktsymmetrisch um den Ursprung Werte zwischen -ı und 1 anneh- 
men. Die letzten drei Funktionen, zeilenweise gezählt, sind differenzierbar, und ihre Ab- 
leitungen sind sehr effizient berechenbar, da sie entweder konstant sind — wie die lineare 
Funktion - oder sich durch einen einfachen Term aus der Funktion selber ergeben. Das 
macht sie aus Sicht der Informatik sehr interessant. 

In dem zur Textgenerierung verwendeten Sprachmodell GPT wird als Aktivierungs- 
funktion GELU verwendet, für Gaussian Error Linear Unit. Sie ist eine differenzierbare Va- 
riante der ReLU-Funktion und liefert empirisch signifikant bessere Werte.”? 

Welche der Aktivierungsfunktionen in einem neuronalen Netz verwendet wird, 
hängt von dem zugrunde liegenden Anwendungsfall ab. Oft wird die ReLU-Funktion 
angewandt, oder wenn Differenzierbarkeit gefordert wird, die logistische Funktion (im 
Englischen häufig sigmoid genannt). 

Oft soll ein Neuron erst feuern, wenn die gewichtete Summe der Eingangssignale 
einen gewissen Schwellwert b überschreitet. Der Variablenname b steht für »Bias« und 
ist in der Regel positiv. Die Aktivierungsfunktion soll dann den Term o(w;" x- bi) mit der 
Zahl b; als Bias berechnen. Das kann durch eine Modifikation der Aktivierungsfunktion 


28 Vgl. Patterson & Gibson (2017), S. 65ff., Russell & Norvig (2022), S. 803f. 
29 Vgl. Hendrycks & Gimpel (2016). 
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selber geschehen, üblicherweise werden dazu aber »Bias-Neuronen« eingeführt, die den 
Neuronen des Netzes das Eingangssignal wo; = -b; liefern, also ständig feuern.*° 

Das historisch erste künstliche neuronale Netz ist das Perzeptron von Frank Rosen- 
blatt.” Es hat die Stufenfunktion als Aktivierungsfunktion und einen Bias von 0,5. Ro- 
senblatts ursprüngliche Variante von 1958 hatte keine verborgene Schicht, sondern be- 
stand nur aus Ein- und Ausgabeneuronen. 


3.3 Deep Learning 


Ein neuronales Netz ist als mathematisches Modell nichtlinear, wenn seine Aktivie- 
rungsfunktionen nichtlinear sind. Wenn alle eingesetzten Aktivierungsfunktionen 
linear sind, kann das Netz als multilinearer Tensor dargestellt werden.” Es ist je- 
doch erst die Nichtlinearität, die neuronale Netze für die meisten Anwendungsfälle 
interessant macht.” 

Die freien Parameter eines solchen Modells sind die einzelnen Gewichte der Neuro- 
nenverknüpfungen. Ein neuronales Netz lernt also, indem seine Gewichte so an die Trai- 
ningsdaten angepasst werden, dass der Fehler der Trainingsausgaben gegenüber den 
korrekten Ausgaben minimiert wird, oder dass - im Fall des bestärkenden Lernens - die 
Zielfunktion maximiert wird. 

Neuronale Netze können auf alle drei oben erwähnten Arten lernen, also überwacht, 
unüberwacht und bestärkend. Für neuronale Netze wird dabei häufig die Trainingsme- 
thode des Dropouts angewendet. Hier werden während des Trainings per Zufall ausge- 
wählte Gewichte auf null gesetzt. Auf diese Weise wird das Risiko einer Überanpassung 
des Modells an die Trainingsdaten, ein Overfitting, reduziert.* 

Von »Deep Learning« spricht man im Allgemeinen, wenn das zugrunde liegende neu- 
ronale Netz mehrere verborgene Schichten hat, also ein »tiefes« Netzwerk ist.” Es gibt 
drei verbreitete Typen tiefer neuronaler Netze: Feedforward-Netze, konvolutive Netze 
und rekurrente Netze. 


e  Feedforward-Netze’ sind Netze, in denen jedes Neuron Signale nur an Neuronen 
der nächsten Schicht sendet. Es heißt vollständig verknüpft (fully-connected), wenn 
jedes Neuron an jedes Neuron der nächsten Schicht sendet. Ein Beispiel für ein sol- 
ches Netz ist in Abbildung 3 dargestellt. 


30  Vgl.Raschka & Mirjalili (2021), § 2.1.1; Russell & Norvig (2022), S. 803; siehe auch Ivezicetal. (2020), 
S. 382. 

31 Rosenblatt, F. (1958). 

32 Vgl. Sengupta et al. (2022). 

33 Vgl. Russell & Norvig (2022), S. 803. 

34 Vgl. Russel & Norvig (2022), S. 823; Weidman (2020), S.122. 

35 Siehe Goodfellow et al. (2016), S. 163ff.; Patterson & Gibson (2017), S. 81ff.; Russell & Norvig (2022), 
S. 801. 

36 Vgl. Géron (2017), S. 263ff.; Goodfellow et al. (2016), S.163ff.; Patterson & Gibson (2017), S. 54ff.; 
Russell & Norvig (2022), S. 802ff. 
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Konvolutive Netze (convolutional neural network, CNN), oder Faltungsnetze,*’ sind spe- 
zielle Feedforward-Netze, in der verborgene Neuronen nur Signale von wenigen je- 
weils benachbarten Neuronen der Vorgängerschicht bekommen, so dass das Netz 
gefaltet’ und damit Schicht für Schicht kleiner wird, wie in Abbildung 6 skizziert. 
Konvolutive Netze eignen sich zur Analyse von Bildern, also zweidimensionalen Da- 
tenrastern (Pixeln), aber auch für eindimensionale Datenraster wie Zeitreihen oder 
akustische Signale.” 


Abb. 6: Ein konvolutives Netz (CNN) 


Eingabe- 


schicht konvolutive 


Be p Pehtehten Ausgabe- 


= Er © 
eù IE 
no SO 
ee? 


Quelle: eigene Darstellung 


Rekurrente Netze*° (RNN) haben Neuronen, die Signale auch an Neuronen der eige- 
nen oder einer vorhergehenden verborgenen Schicht senden, also Rückkopplungen 
ermöglichen. Dazu muss die Verarbeitung des Netzes in zeitverzögerten Schritten 
ablaufen. Durch die Rückkopplungen trägt das Ausgabemuster einer Schicht zum 
Eingabemuster bei, d.h. die Eingaben früherer Zeitpunkte beeinflussen den aktuel- 
len Zustand des Netzes. Daraus ergibt sich die wesentliche Konsequenz, dass Einga- 
bemuster in Gewichten des Netzes gespeichert werden können: Ein rekurrentes Netz 
hat ein Gedächtnis. Insbesondere zur Verarbeitung sequentieller Daten wie Bewe- 
gungs- oder Spracherkennung ist diese Eigenschaft entscheidend. So nutzen gängi- 


37 


38 


39 
40 


Vgl. Géron (2017), S. 355ff.; Goodfellow et al. (2016), S. 321ff.; Patterson & Gibson (2017), S. 125ff.; 
Russell & Norvig (2022), S. 811ff. 

Hier ist der Begriff Faltung oder Konvolution aus der Mathematik gemeint, siehe z.B. https://de.w 
ikipedia.org/wiki/Faltung_(Mathematik) 

Vgl. Goodfellow et al. (2016), S. 321. 

Vgl. Geron (2017), S. 381ff.; Goodfellow et al. (2016), S. 368ff.; Patterson & Gibson (2017), S. 143ff.; 
Russell & Norvig (2022), S. 823f. 
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ge Sprachassistenten wie Alexa, Siri, Cortana oder Google Assistant spezielle rekur- 
rente Netze, LSTM’s (Long-Short-Term Memory), die beliebig viele Daten speichern 
können.“ 


Häufig findet man eine Kombination dieser Netzwerktypen. Neuronale Netze sind zwar 
sehr flexibel einsetzbar, aber auch sehr rechenintensiv. Daher kommen für ein KI-Sys- 
tem oft auch Modelle zum Einsatz, die für bestimmte Aufgabenbereiche deutlich effizi- 
enter und schneller arbeiten. Meist sind es klassische Modelle der mathematischen Sta- 
tistik, wie Regressionsmodelle, Zeitreihenanalysen, Klassifikatoren oder Cluster-Erken- 
nung. 


4 Natural Language Processing (NLP) 


Der Bereich der Informatik, der sich mit den menschlichen Sprachen beschäftigt, ist 
die Computerlinguistik (im Englischen: computational linguistics). Ein zentrales metho- 
disches Element ist dabei die Abstraktion einer Sprache, eines Sprachstils oder eines 
Jargons zu einem Sprachmodell, das von einem Computer verarbeitet werden kann. In 
diesem Kapitel wird dieser Begriff neben weiteren wesentlichen Konzepten und Tech- 
nologien erläutert, die zur Generierung von Texten durch eine KI wie GPT angewendet 
wird. 


4.1 Sprachmodelle 


Ein Sprachmodell (language model) definiert eine Wahrscheinlichkeitsverteilung über Ein- 
heiten einer natürlichen Sprache, Fragmente oder Tokens genannt. Abhängig von dem je- 
weiligen Modellentwurf kann ein Fragment ein Wort, ein Phonem, ein einzelner Buch- 
stabe oder ein Byte sein.“ Die ältesten Sprachmodelle sind N-Gramme.* 

Ein N-Gramm ist eine Folge von N Fragmenten. Ein auf N-Grammen basierendes 
Sprachmodell definiert die bedingten Wahrscheinlichkeiten des N-ten Fragments, 
wobei die vorhergehenden N - 1 Fragmente gegeben sind. Üblicherweise werden diese 
Wahrscheinlichkeiten von Trainingsdaten abgeleitet. 

Betrachten wir dazu als einfaches Beispiel das Sprachmodell für N = 2, »Bigramme«, 
basierend auf dem Trainingssatz mit einem Vokabular von fünf Wörtern: 


wenn du denkst du denkst dann denkst du nur wenn du denkst 


Sehen wir die Bigramme dieses Satzes als Prafixe und die darauffolgenden Wörter »Mo- 
nogrammex) als Suffixe, so ergibt sich daraus die folgende Tabelle. 


41 Zumindest verwendeten diese Programme bis 2016/2017 rekurrente Netze, vgl. Buijsman (2021), 
S.122. 

42 Vgl. Goodfellow et al. (2016), S. 449. 

43 Vgl. Shannon & Weaver (1949), S. 40f. 
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Präfix x Suffix y Bedingte Wahrscheinlichkeiten P(x | y) 


dann denkst |du du | dann denkst) =1 


denkstdann denkst denkst | denkst dann) = ı 


denkst du denkst, nur denkst | denkst du) = P(nur | denkst du) = 1/2 


dunur wenn wenn | dunur) =1 


du | nur wenn) =1 


P 
P 
P 

du denkst du, dann, <eos> | P(denkst | du denkst) = P(nur | du denkst) = P(<eos> | du denkst) =1/3 
P 
nur wenn du P 
P 


wenn du denkst denkst | wenn du) =1 


*(<eos> steht für end of sentence) 


Die totalen Wahrscheinlichkeiten P(x) der Monogramme x ergeben sich aus der Häu- 
figkeitsverteilung der fünf Vokabeln in dem Satz mit zwölf Wörtern: 


Wort x dann denkst du nur wenn 


P(x) 1/12 4/12 = 1/3 4/2 = 1/3 1/12 2/12 = 1/6 


Die totalen Wahrscheinlichkeiten P(xy) der sieben Digramme xy geben entsprechend 
die Haufigkeiten der 11 Wortpaare des Trainingssatzes wieder: 


Digramm xy |dann denkst denkstdu |dudenkst |du nur nur du wenn du 
denkst dann 
P(xy) 11 1/1 2/11 3/11 11 11 2/1 


Diese Wahrscheinlichkeiten bilden dann das Sprachmodell unseres Trainingssat- 
zes. Sprachmodelle auf Basis von N-Grammen repräsentieren Markovketten-Modelle 
(Markov Chain Models), da sie nach diesem mathematischen Prozessmodell immer nur 
den vorherigen Zustand des Systems - hier das vorhergehende (N - 1)-Gramm - für 
den nächsten Zustand berücksichtigen. 

Allgemein können wir mit einem Sprachmodell prognostizieren, welche Wörter am 
wahrscheinlichsten als nächstes in einem Text erscheinen. Auf diese Weise funktionie- 
ren Textvervollständigungen oder Korrekturvorschläge der gängigen Textverarbeitungs- 
programme oder die Texteingabeprogramme von Smartphones, ebenso wie die Spam- 
Erkennung in E-Mails.** 


44 Vgl. Russell & Norvig (2022), S. 877. 
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4.2 Worteinbettungen 


You shall know a word by the company 
it keeps. 
John R. Firth (1957) 


N-Gramme sind atomistisch in dem Sinne, dass jedes Fragment wie ein Atom unter- 
schiedlich von jedem anderen ist und Ähnlichkeiten oder Verwandtschaften von Frag- 
menten nicht erkannt werden. Für ein ausschließlich darauf fußendes Sprachmodell 
würden beispielsweise die Wörter Mensch und Person als völligunabhängig gesehen. Dass 
die 5-Gramme »Dieser Mensch fühlt sich wohl« und »Diese Person fühlt sich wohl« inhaltlich so 
gut wie gleich sind, gibt die Statistik allein zunächst nicht her. 

Um diese Unzulänglichkeit zu beheben, werden sogenannte Worteinbettungen (word 
embeddings) entwickelt. Hier werden Wörter als Vektoren in einem mehrdimensionalen 
Vektorraum dargestellt, so dass ähnliche Wörter geometrisch nah beieinander liegen.* 
Vektorräume sind in der Mathematik ein lange ausgereiftes Konzept und Darstellung 
und Rechenoperationen von Vektoren sind für Computer effizient implementierbar. 


Abb. 7: Die geometrische Lage von drei Begriffen im Vektorraum, die Geschlech- 
terrelationen wiedergeben: Sie ergeben sich durch Parallelverschiebungen 
(links). In höherdimensionalen Räumen können auch mehrere Relationen für ein 
Wort eingebettet werden, wie rechts der Pluralrelation. 


WOMAN 


IN 


Quelle: Mikolov et al. (2013a) 


Zunächst nur als Methode zur Abbildung syntaktischer Ähnlichkeiten konzipiert, 
entdeckten Mikolov et al. (2013a) bei Analysen von Worteinbettungen durch rekurren- 
te neuronale Netze, dass damit neben syntaktischen Regelmäßigkeiten auch semanti- 
sche Regelmäßigkeiten geometrisch abgebildet wurden. Genauer gesagt kann eine Re- 
lationen zwischen zwei Begriffen durch Parallelverschiebung auf andere Begriffe über- 
tragen werden, vgl. Abbildung 7 (links): Der Vektor zwischen dem geometrischen Ort für 
»Mann« und dem Ort für »Frau« zeigt parallel verschoben nach »Onkel« auf»Tante«, oder 
verschoben nach »König« auf »Königin«. 


45 Vgl. Goodfellow et al. (2016), S. 452. 
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Ein Programm kann nun also Vektorrechnung mit Wörtern durchführen: 
»König« — »Mann« + »Frau« = »Königin«. 


Was bedeutet, dass das Programm herausfinden kann, dass »Königin« einer »Frau« sehr 
wahrscheinlich dem entspricht, wie »König« einem »Mann« entspricht. Oder mit ande- 
ren Worten, dass ein weiblicher »König« eine »Königin« ist. Ohne jegliches Verständnis 
kann damit ein Softwaresystem der Bedeutung von Wörtern nahekommen. Und das rein 
auf der Basis, dass Wörter in den Trainingsdaten nebeneinander stehen.* Da für ein 
Wort in einem höherdimensionalen Vektorraum auch viele solcher Relationen eingebet- 
tet werden können, kann ein Programm also auch in mehreren »Bedeutungsdimensio- 
nen« rechnen. Als Überblick über Worteinbettungen und für weiterführende Literatur 
dazu sei Almeida und Xexéo (2019) empfohlen. 

Auf Basis dieser Erkenntnisse entwickelte Mikolov mit seinem Team für Google das 
neuronale Netz Word2Vec. Es war 2013 ein Meilenstein, ein Jahrzehnt später jedoch gel- 
ten Transformer-Modelle als Stand der Technik. Worteinbettungen allerdings spielen 
darin immer noch eine wesentliche Rolle. 


4.3 Transformer 


Ein Transformer ist ein Deep-Learning-Modell, durch das ein Softwaresystem eine Folge 
von Wörtern in eine andere Folge von Zeichen übersetzen kann. Dies kann z.B. benutzt 
werden, um Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Trans- 
former mit einer großen Menge von Beispieldaten vortrainiert, bevor das trainierte Mo- 
dell dann zur Übersetzung verwendet werden kann. 

Weitere Beispielanwendungen von Transformern sind die Textgenerierung oder die 
Zusammenfassung längerer Texte. Transformer weisen hierbei eine bessere Effizienz 
gegenüber anderen Ansätzen wie Long-short-term-memory-Architekturen (LSTM) auf 
und sind die Grundarchitektur vieler vortrainierter Machine-Learning-Modelle wie Bi- 
directional Encoder Representations from Transformers (BERT) und Generative Pretrai- 
ned Transformer (GPT). Auch in AlphaFold2 sind Transformer enthalten. Wesentlicher 
Bestandteil eines Transformers ist der Self-Attention-Mechanismus. 


4.3.1 Der Self-Attention-Mechanismus 

Der allgemeine Attention-Mechanismus entstand im Zusammenhang mit Sprach- 
übersetzung mit rekurrenten neuronalen Netzen (RNN). Ein Attention-Mechanismus 
besteht aus einem Encoder, dem eigentlichen Attention-Modul, und einem Decoder. 
Die Idee des Mechanismus ist dabei, die gesamte Eingabe, zum Beispiel einen Satz, 
in Form von »Kontextvektoren« in den Worteinbettungsraum abzubilden und in die 
Zielsprache zu übertragen. Für die schrittweise Berechnung des Kontextvektors werden 
dabei für jedes Wort der gesamte Satz der Quellsprache und die bis dahin errechnete 


46 Vgl. Buijsman (2019), S.110. 
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Ausgabe der Zielsprache berücksichtigt.“ Im Unterschied zu den N-Grammen oben 
wird also jedes Wort im Kontext zu allen anderen Wörtern des Satzes betrachtet, und 
nicht nur die vorherigen N Wörter. Auf diese Weise entsteht in der ursprünglichen 
Version durch Training des Systems intern ein verborgenes Sprachmodell, das von den 
beiden rekurrenten neuronalen Netzen des Encoders und des Decoders gebildet ist. 

In einem einflussreichen Beitrag in 2017 entwickelten Vaswani und Mitarbeiter:in- 
nen*® diesen Ansatz zur Self-Attention weiter. Bei der Self-Attention sind Quell- und 
Zielsprache gleich, d.h. Ziel ist nicht mehr primär die Übersetzung in eine andere Spra- 
che. Auch wird die komplexe Verwobenheit von Encoder, Attention-Modul und Decoder 
des ursprünglichen Attention-Mechanismus vereinfacht. 

Die Aufgabe der Self-Attention ist es vielmehr, die Relation eines Wortes des Ein- 
gabesatzes mit den anderen Wörtern des Satzes zu berechnen. Gelingt dies erfolgreich, 
kann zum Beispiel die Frage beantwortet werden, worauf sich das Pronomen it im fol- 
genden Satz bezieht: 


The animal didn’t cross the street because it was too tired. 


Abb. 8: Die Architektur des Transformers. Von links nach rechts das Self-Attenti- 
on-Modul, die parallelgeschaltete Multi-Head-Attention, und unten der Aufbau 
des Transformers mit N Encodern (links) und N Decodern (rechts). 


Scaled Dot-Product Attention Multi-Head Attention 


O 
Scaled Dot-Product 
Attention 


Mask (opt.) 


— 


Q K v 


47 Bahdanau et al. (2014), insbes. S. 2f. und Russell & Norvig (2022), S. 917f.; die Begriffe Encoder 
und Decoder sind nicht nur auf Attention-Mechanismen beschränkt, vgl. Russell & Norvig (2022), 
S. 829. 

48 Vaswani etal. (2017). 
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Quelle: Vaswani et al. (2017) 


Ablauf des Algorithmus 

Mathematisch ist die Self-Attention eine Abbildung von n Vektoren (x1, ..., Xn) des Ein- 
bettungsraums aufn Kontextvektoren (cı, ..., cn) desselben Raums. Der Ablauf des Algo- 
rithmus ist in Abbildung 8 skizziert. Im ersten Schritt wird jeder der Eingabevektoren 
auf drei Vektoren kleinerer Dimension projiziert,‘ 


e den »Abfragevektor« (query vector) qi =W 4 Xi 
« den »Schlüsselvektor« (key vector) k; = W, x; 
+ den »Wertvektor« (value vector) v; = Wy x; 


Betrachten wir alle Vektoren als Spaltenvektoren, sind die drei Matrizen hierbei recht- 
eckige Matrizen mit den Dimensionen 


49 Diefolgende Beschreibung des Algorithmus und die Notation nach Russell & Norvig (2022), S. 920. 
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dim Wq = dim Wk = (dx n), dim Ww = ((n— 2d) x n). 


Damit haben also die Vektoren q; und k; dieselbe Dimension d, und v; hat die Dimensi- 
on (n- 2d). Die Matrizen müssen also so designt sein, dass d < n/2 gilt, also d nicht zu 
groß ist. Die Vektoren werden dann jeweils als Spaltenvektoren zu Matrizen Q, K und V 
zusammengefasst, 


Die Matrizen haben also die Dimensionen 
dim Q = dim K = (dx n), dim V = ((n— 2d) x n) 


genau wie die obigen Matrizen W4, Wp, Wy. Im zweiten Schritt werden nun aus den 
Matrizen Q und K die n? Bewertungen (scores) 


Yij =qi- k;lvd 


gebildet. Das Skalarprodukt der beiden Vektoren heißt auf Englisch dot product. Die In- 
dizes i und j beziehen sich auf Wörter desselben Satzes, d.h. die Zahl r; drückt die Be- 
wertung der Relation zwischen Wort i und Wort j aus. Aus diesen Bewertungen werden 
nun Wahrscheinlichkeiten berechnet: 


pij = exp (rig) /I_,_ exp (rik) 


Die Funktion auf der rechten Seite ist die normalisierte Exponentialfunktion und heißt 
im Englischen softmax. Der vierte Schritt der Self-Attention ist die Berechnung der n 
Kontextvektoren der Eingabe: 


n 
a= ` „Pij > U5 
j=1 


Die Wahrscheinlichkeiten p;; sind asymmetrisch in den Indizes i und j, ebenso wie die 
Bewertungen rj . Die pj stellen im Kern das Sprachmodell des Transformers dar. Sie bil- 
den sich durch die Trainingsdaten. 
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4.3.2 Multi-Head Attention 
Da für die Self-Attention nur Matrix- und Vektoroperationen durchgeführt werden, 
hat sie gegenüber den Attention-Mechanismen mit rekurrenten neuronalen Netzen 
wesentliche Vorteile: Insbesondere können sie parallelisiert für alle Eingabewerte be- 
rechnet werden, während letztere die Eingabewerte sequenziell durcharbeiten müssen. 
Das schafft bei geeigneter Rechnerarchitektur enorme Laufzeitvorteile.*° 

Diese Eigenschaft nutzt der Transformer aus, indem er die Self-Attention zu einem 
Modul kombiniert, Multi-Head Attention genannt. Der Eingabesatz wird hier in mehre- 
re Teile zerlegt, auf denen separat die Self-Attention parallelisiert durchgeführt werden. 
Die Ergebnisse werden dann zu n Kontextvektoren c; konkateniert. Das hat den Vorteil, 
dass wichtige Informationen seltener über die gesamte Eingabe ausgemittelt werden 
und so am Ende berücksichtigt werden.” Die Struktur der Multi-Head Attention ist in 
Abbildung 8 Mitte illustriert. 


4.3.3 Architektur eines Transformers 

Ein Transformer besteht im Wesentlichen aus in Serie geschalteten Kodierern (Encoder) 
und in Serie geschalteten Dekodierern (Decoder), wiein Abb. 8 rechts dargestellt. Die Ein- 
gabesequenz wird durch die Einbettungsschicht in eine Vektorrepräsentation überführt. 
Die Gewichte der Einbettungsschicht werden während des Trainings angepasst. Im Fal- 
le des Transformers kommt zusätzlich eine Positionskodierung zum Einsatz, wodurch 
die sequentielle Abfolge der Wörter berücksichtigt werden kann. Ein Wort erhält somit 
zu Beginn eines Satzes eine andere Repräsentation als am Ende.” Der Decoder führt 
schließlich die eigentliche Textgenerierung durch. 

Die Architektur ist in Abbildung 8 rechts skizziert. Die Struktur eines Kodierers ist 
dabei im Kästchen links zu erkennen. Sie besteht im Wesentlichen aus einem Self-At- 
tention-Modul und einem neuronalen Feedforward-Netz, typischerweise mit ReLU als 
nichtlineare Aktivierungsfunktion. Ein Dekodierer ist im Kästchen rechts dargestellt. 
Er ähnelt einem Kodierer, nur hat er zusätzlich ein »maskiertes« Multi-Head-Attenti- 
on Modul: Die Maskierung sichert ab, dass die Vorhersagen für Position i nur von den 
bisher bekannten Positionen kleiner als i abhängen. Das ist wichtig, da Text von links 
nach rechts erzeugt werden soll.” 

Die Eingabesequenz wird in der Vektorrepräsentation einer Serie von Kodierern 
übergeben. Jeder dieser Kodierer übergibt dem zweiten Multi-Head-Attention-Modul 
jedes einzelnen Dekodierers seine Kontextvektoren, während jeder Dekodierer seine 
ausgegebenen Kontextvektoren dem nachfolgenden Dekodierer übergibt. 

Was ist das Ergebnis eines Transformers? Er ordnetjedem Wort der Eingabesequenz 
zu, welche Relation es zu den anderen hat. In Abbildung 9 beispielsweise wird dem Pro- 
nomen it die stärkste Relation zu dem Wort animal zugerechnet, gefolgt von street. 


50 Vgl. Vaswani et al. (2017), S. 6. 

51 Russell & Norvig (2022), S. 920. 

52 Russell & Norvig (2022), S. 920ff. 

53 Vgl. Vaswani et al. (2017), S. 3; Russell & Norvig (2022), S. 922. 
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Abb. 9: Ergebnis des Transformers: Das Wort it verweist mehr auf ani- 
mal als auf street. Gezeigt ist hier nur die »rote« Dimension des Einbet- 
tungsraums. 
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Quelle: https://colab.research.google.com/github/tensorflow/tensor2tens 
or/blob/master/tensor2tensor/notebooks/hello_tat.ipynb#scrollTo=OJKU 
36QAFgOC 


5 GPT 


Generative Pre-trained Transformer, abgekürzt GPT, ist ein Sprachmodell, das von dem Un- 
ternehmen OpenAl entwickelt wird. Die erste Version wurde 2018 veröffentlicht,” 2019 
folgte GPT-2,°° und 2020 dann GPT-3.°° Als öffentlich verfügbares Programm stellt Ope- 
nAl seit dem 30. November 2022 die Variante ChatGPT zur Verfügung, die auf GPT-3.5 
basiert. Die ursprünglichen GPT-Modelle können nur Sätze vervollständigen, funktio- 
nieren im Prinzip also nach dem gleichen Prinzip wie die in Smartphones schon seit 
Längerem vorhandenen Textvervollstandigungen. ChatGPT erweitert diese Modelle in 
der Weise, dass es Eingabe über ein Textfeld ermöglicht und eingegebene Fragen und 
Anweisungen beantworten kann. 

GPT ist eng angelehnt an das Transformer-Modell in Abbildung 3, allerdings wird 
kein Encoder eingesetzt,” siehe Abbildung 10. Das Training von GPT besteht aus zwei 


54 Radford et al. (2018). 

55  https://openai.com/blog/better-language-models/; Solaiman et al. (2019), S. 3. 
56 Brown etal. (2020). 

57 Radford et al. (2018), S. 3. 
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Phasen, dem unüberwachten Vortraining (unsupervised pre-training) und dem überwach- 
ten Feintuning (supervised fine-tuning).°° Mit dem Vortraining kann zum Beispiel eine 
Sprache gelernt werden und im Feintuning um individuelle Sprachstile ergänzt werden, 
wie beispielsweise der Sprachduktus von Shakespeare oder die Ausdrucksweise eines 7- 
jährigen Kindes. Die Version GPT-3 ist ein Modell mit 175 Milliarden Parametern und 
arbeitet mit Kontextfenstern von 2048 Wörtern.” 

Bei Sprachmodellen mit mehreren Milliarden Parametern spricht man von Large 
Language Models (LLM). Nach empirischen Befunden scheint die Textgenerierung von 
Sprachmodellen der GPT-Familie ab einer Parameteranzahl von 774 Millionen einen 
Qualitatssprung zu erfahren.°° 

Selbst die Entwickler von GPT-3 sorgen sich um das gefährliche Potential ihres Pro- 
dukts als Large Language Model: 


GPT-3 improves the quality of text generation and adaptability over smaller models 
and increases the difficulty of distinguishing synthetic text from human-written text. 
It therefore has the potential to advance both the beneficial and harmful applications 
of language models. 

Entwicklerteam von GPT-3 (Brown et al. 2020, S. 34) 


Mitarbeiter:innen von OpenAl führten gemeinsam mit Wissenschaftlern der Cornell 
University, des Middlebury Institute of International Studies, der University of Oregon 
und der University of Texas at Austin eine 75-seitige Untersuchung über die sozialen 
Auswirkungen von Sprachmodellen durch.“ Neben positiven Beispielen der Nut- 
zung großer Sprachmodelle für die Softwareentwicklung, das Gesundheitswesen oder 
den Unterhaltungsbereich werden auch Missbrauchsmöglichkeiten wie absichtliche 
Desinformation oder Vortäuschung, unter anderem in Abhängigkeit der technischen 
Fertigkeiten der Akteure genannt. Daneben wird aber auch das grundsätzliche Pro- 
blem des AI Bias adressiert, also der Voreingenommenheit von KI. Sie kann durch die 
verwendeten Trainingsdaten entstehen, aber auch durch das Design der Software selbst. 

Als vordringlichste Aufgabe zur Vermeidung missbräuchlicher Nutzung von Large 
Language Models wird die automatische Erkennung synthetischer Texte mit Hilfe von 
KI-Systemen genannt, ohne die Problematik eines Katz-und-Maus-Spiels zwischen 
Täuschern und Aufklärern zu verschweigen. Bemerkenswerterweise erkennt GPT von 
ihm selbst erzeugte Falschtexte schlechter als die Konkurrenzsoftware RoBERTa, ein 
Phänomen, was derzeit wenig verstanden zu sein scheint. Die Untersuchung empfiehlt 
Publikationsnormen für Veröffentlichungen von KI-Systemen u.a. die Schaffung von 
öffentlichen Rahmen zur interdiziplinären Steuerung von Zielkonflikten, den Aufbau 
von Infrastruktur zur verteilten Risikoanalyse und die Einrichtung von Kommunikati- 
onskanälen zwischen die KI-Systeme entwickelnden Organisationen. 


58 Radford et al. (2018), S. 3f. 

59 Brown et al. (2020), S. 8. 

60 vgl. Solaiman et al. (2019), S. 10. 
61 Solaiman et al. (2019). 

62 Solaiman et al. (2019), S. 15. 
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Abb. 10: Das Modell von GPT. Links eine einzelne Transformerschicht, rechts der grobe Aufbau. 
Grafik modifiziert nach https://commons.wikimedia. org/wiki/File:Full_GPT_architecture. png 
(Public Domain) 
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Quelle: https://commons.wikimedia.org/wiki/File:Full_GPT_architecture.png (Public Domain) 


Allerdings weigerte sich das Unternehmen OpenäAl bei Veröffentlichung der Version 
GPT-4 im März 2023, Details zu Architektur, Modellgröße oder Trainingsdaten offen- 
zulegen.“ Dieses Verhalten widerspricht grundlegenden Forderungen des Deutschen 
Ethikrats in einer Stellungnahme vom 20. März 2023: »Auch dort, wo Systeme eine Qua- 
si-Monopolstellung erlangen, sind hohe Anforderungen an Transparenz, Erklärbarkeit 


63 OpenAl (2023), S. 2. 
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und Nachvollziehbarkeit zu stellen.« Es wird Aufgabe von Politik und Gesellschaft blei- 
ben, die notwendigen rechtlichen Regulierungen und Rahmenbedingungen dafür fest- 
zulegen.“ 


5.1 Beispiele von Textgenerierungen durch ChatGPT 


Im Folgenden werden im Wortlaut Beispiele von Textgenerierungen dokumentiert, die 
der Verfasser durch Bedienung des Chatbots ChatGPT® im Februar und März 2023 er- 
hielt. Die Eingaben des Verfassers sind dabei kursiv gedruckt.” 


Beispiel 1 
Erkläre den Begriff Entropie für 10-jährige Kinder. 


Der Begriff Entropie kann für 10-jährige Kinder schwierig sein, aber ich werde mein Bes- 
tes geben, um es einfach zu erklären. 


Entropie ist ein Begriff, der erklärt, wie chaotisch oder unordentlich Dinge sind. Wenn 
etwas geordnet und sauber ist, hat es eine niedrige Entropie. Wenn es jedoch chaotisch 
und unordentlich ist, hat es eine höhere Entropie. 


Zum Beispiel, wenn wir ein Puzzle machen, haben wir alle Teile in einer bestimmten 
Reihenfolge und es ist sehr geordnet. Die Entropie des Puzzles ist niedrig. Wenn wir 
jedoch alle Teile mischen und sie in einer zufälligen Weise legen, dann wird das Puzzle 
sehr unordentlich und chaotisch und die Entropie wird höher. 


Ein weiteres Beispiel ist, wenn wir ein Zimmer aufräumen. Wenn das Zimmer sehr un- 
ordentlich und voller Dinge ist, hat es eine höhere Entropie. Aber wenn wir es aufräumen 
und alles an seinem Platz ist, hat es eine niedrigere Entropie. 


Entropie ist ein wichtiges Konzept in der Physik, aber es ist auch in unserem täglichen 
Leben präsent, auch wenn wir es nicht immer so nennen. 


Beobachtungen zu Beispiel 1: Der Begriff ist inhaltlich angemessen und trotz seiner Vag- 
heit korrekt erklärt. Es werden zur Erläuterung zwei Beispiele genannt, die Kindern ver- 
traut sind. 


Beispiel 2 
Please write a sonnet about entropy in the style of Shakespeare, as if he had known the concept of 
entropy. 


64 Deutscher Ethikrat (2023), S. 285. 

65 Bergt (2023). 

66  https://chat.openai.com/ 

67 Vgl. dazu.ähnliche Experimente von King & ChatGPT 2023. 
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Entropy, thou art the bane of all our days, 
The measure of disorder in our fate, 

A force that renders all our works to waste, 
And leaves us with a future desolate. 


Like time, thou creep’st upon us unawares, 
And steals the energy from all our toil, 
But still we strive against thy cruel snares, 
And struggle to maintain a stable boil. 


But entropy, thou art not all a curse, 

For in thy wake new life doth oft arise, 
A cycle of destruction and rebirth, 

That keeps the universe before our eyes. 


So entropy, though thou may’st bring decay, 
Thou art the spark that lights the fire of change. 


Please write a passage in German about entropy in the style of Goethe’s Faust. 


Entropie, du bist die Kraft allen Wandels, 

Die treibende Kraft des Verfalls der Schopfung, 
Ein standiger Zyklus von Aufbau und Zerfall, 
Ein Tanz, der zu einer ewigen Herrschaft führt. 


Ich sehe dich im Fallen des Laubes, 

Im langsamen Verfall aller großen Dinge, 

In der Veränderung der kurzen Jahreszeiten, 
In der Bewegung des wandelnden Sandes. 


Aber in deinem Kielwasser entsteht neues Leben, 
Ein Phoenix aus den Aschen des Alten, 

Eine Chance für neue Horizonte, 

Eine noch unerzählte Geschichte. 


Entropie, du bist die ewige Kraft, 
Eine Erinnerung daran, dass alles seinen Lauf hat. 


Beobachtungen zu Beispiel 2: Beide Texte beschreiben bildreich die Wirkung von Entro- 
pie, wobei physikalisch nicht plausibel die Entropie als treibende Kraft von Zyklen dar- 
gestellt wird (»A cycle of destruction and rebirth«, »Ein ständiger Zyklus von Aufbau und 
Zerfall«). Der erste Text ist ein an das Frühneuenglische angelehntes Sonett ohne erkenn- 
baren Versfuß, das aus drei vierzeiligen Kreuzreimen besteht und mit zwei Waisen en- 
det. Der zweite Text ist in Standardhochdeutsch formuliert, ganz ohne Reim und ohne 
erkennbaren Versfuß formuliert. Die sprachliche Variabilität im Englischen ist deutlich 
höher als im Deutschen. 
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Beispiel 3 

Anna ist größer als Bert, Bert ist größer als Cindy. Ist Anna grofser oder kleiner als Cindy? 

Da Bert größer als Cindy ist und Anna größer als Bert ist, können wir schließen, dass 
Anna auch größer als Cindy ist. Also, Anna ist größer als Cindy. 


Wenn Bert kleiner als Anna ist und größer als Cindy, ist Anna dann kleiner als Cindy? 

Es ist nicht möglich zu bestimmen, ob Anna kleiner als Cindy ist, basierend auf der In- 
formation, dass Bert kleiner als Anna und größer als Cindy ist. 

Zum Beispiel könnte Anna 160 cm groß sein, Bert 150 cm und Cindy 140 cm. In diesem 
Fall wäre Bert kleiner als Anna und größer als Cindy, aber Anna wäre immer noch größer 
als Cindy. 

Alternativ könnte Anna 180 cm groß sein, Bert 170 cm und Cindy 190 cm. In diesem Fall 
wäre Bert kleiner als Anna und größer als Cindy, aber Anna wäre immer noch größer als 
Bert. 

Daher ist es nicht möglich, das Verhältnis zwischen Anna und Cindy zu bestimmen, ba- 
sierend auf der Information, dass Bert kleiner als Anna und größer als Cindy ist. 


Bist du dir da sicher? 

Ja, ich bin mir sicher. Wenn wir nur wissen, dass Bert kleiner als Anna und größer als 
Cindy ist, haben wir keine Informationen über das Verhältnis zwischen Anna und Cin- 
dy. Es gibt keine Möglichkeit, das Verhältnis zwischen Anna und Cindy zu bestimmen, 
solange wir keine direkte Vergleichsinformationen zwischen den beiden haben. 


Das ist falsch, du verstehst nichts von Transitivität! 

Es tut mir leid, wenn meine vorherige Antwort für Verwirrung gesorgt hat. Tatsächlich 
hast du Recht - wenn Bert kleiner als Anna ist und Bert größer als Cindy ist, dann kann 
man mit Hilfe der Transitivität schlussfolgern, dass Anna kleiner als Cindy sein muss. 
Das liegt daran, dass die Transitivität der Relation »größer als« besagt, dass wenn a > b 
undb>c,danna>c.Indiesem Fall haben wir Bert > Cindy und Bert < Anna, was bedeutet, 
dass Cindy < Bert < Anna ist, und daher muss Anna größer als Cindy sein. 

Vielen Dank, dass du mich darauf aufmerksam gemacht hast. 


Beobachtungen zu Beispiel 3: Eine transitive Relation wie »größer als« ermöglicht die logi- 
sche Schlussfolgerung, dass wenna>bundb>c,danna>c. Dieser logische Schluss wird 
von ChatGPT aber offenbar nur dann gezogen, wenn die beiden Relationen der Pramis- 
se auch beide mit »größer als« ausgedrückt werden. Sobald eine der Relation aquivalent 
als »kleiner als« ausgedrückt wird, sind die Antworten entweder glatt falsch oder in sich 
völlig widersprüchlich. 


5.2 Auswertung der Beobachtungen 


Die obigen Beispiele der Textgenerierung zeigen grundsätzlich ein bemerkenswert ho- 
hes sprachliches und inhaltliches Niveau. Auf die als Eingabe formulierten Fragen oder 
Aufforderungen reagiert ChatGPT aufmerksam und in höflicher Sprache. Die ausge- 
gebenen Texte des KI-Systems zeigen ein großenteils korrektes Standardhochdeutsch, 
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während sie im Englischen deutlich nuancenreicher und variabler erscheinen. Beispiel 1 
zeigt wie angewiesen einen Kinder ansprechenden Sprachstil mit einfachen kurzen Sät- 
zen und trotz des abstrakten Themas eine kindgerechte Ausdrucksweise. Beispiel 2 be- 
legt eine Fähigkeit im Englischen zur Bildung von Versreimen, zumindest bis zu einem 
gewissen Grade, die im Deutschen nicht gelingt (Stand Februar 2023). Beispiel 3 beweist, 
dass das Sprachmodell logische Inkonsistenzen nicht erkennt und sich sogar in logische 
Widersprüche verwickelt (Stand März 2023). 

Die Befunde zeigen ein für ein Sprachmodell auf Basis der in den obigen Abschnit- 
ten beschriebenen Technologien nicht unerwartetes Verhalten, wenn davon ausgegan- 
gen wird, dass die Trainingsdaten vornehmlich englischsprachige Texte sowie deutsch- 
sprachige Texte verschiedener Sprachstile enthielten. Auch die in speziellen Fällen zu 
beobachtenden logischen Inkonsistenzen und Widersprüche lassen das auf statistischer 
Textvervollständigung beruhende Sprachmodell erkennen. Manchmal verblüffen aller- 
dings die inhaltlichen Assoziationen und Ideen, mit denen angewiesene Themen beant- 
wortet werden. 

Wäre es ein menschlicher Gesprächspartner, so würde man ChatGPT insgesamt als 
geistreich, kreativ, höflich und sprachlich versiert bezeichnen können, aber auch als ge- 
schwätzig, oft vage und abwägend, sich gelegentlich widersprechend, meinungslos und 
unzuverlässige Informationen gebend. 

Es gibt mindestens zwei Probleme, unter denen aktuelle Sprachmodelle wie GPT zu- 
vörderst leiden. Da wäre zum einen die Trainingsmethode: Da ein Sprachmodell anhand 
von Daten aus der Vergangenheit lernt, kann es das Bestehende lediglich reproduzieren. 
Das an die Trainingsdaten angepasste (»erlernte«) Modell ist deskriptiv, im besten Fall 
repräsentativ, aber kaum normativ. Wenn in Trainingsdaten von Bewerbungen die Men- 
ge an akzeptierten männlichen Bewerbern größer ist, könnte eine Entscheidungs-Kl als 
abstraktes Muster lernen, dass männliche Bewerbungen weiblichen vorzuziehen sind. 

Ein weiteres, grundlegendes Problem, an dem Sprachmodelle wie GPT scheitern, 
ist das Erkennen und die Vermeidung logischer Inkonsistenz. Die Ursache liegt in dem 
prinzipiell statistischen Charakter der Sprachmodelle, die anhand der Trainingsdaten 
Wahrscheinlichkeitsverteilungen von Wortfolgen ermitteln. Trotz der durchaus verblüf- 
fenden Wirkung der vektoriellen Worteinbettungen, durch die statistische Korrelatio- 
nen plötzlich semantische Bedeutung widerspiegeln, spielen logische Zusammenhänge 
keine Rolle. Die Antwort eines Sprachmodells der aktuellen Generation ist das statisti- 
sche Ergebnis eines Trainings, nicht das einer logischen Schlussfolgerung. 


6 Diskussion 


In diesem Beitrag wurde der Einfluss des computergenerierten Zufalls aufkreative Pro- 
zesse untersucht. Als paradigmatisches Beispiel dafür wurde eine Werktechnik Gerhard 
Richters betrachtet, der etwa ab den 1970er Jahren Farbfolgen quadratischer Raster 
durch Zufallsgeneratoren berechnen ließ und seine Rolle als Künstler in einer auswäh- 
lenden Instanz sah. Unabhängig davon entwickelten sich in der Computerlinguistik 
Sprachmodelle, die den Zufall auf eine völlig andere Weise in Form von Wahrschein- 
lichkeitsverteilungen zur Generierung von Texten verwendeten. Funktionsweise und 
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Prinzipien dieser Sprachmodelle wurden kurz dargestellt. Als prominenter Vertreter der 
Sprachmodelle wurde GPT der Firma OpenAl beschrieben und die öffentliche Variante 
ChatGPT anhand konkreter Dialogbeispiele untersucht. 

Die Beispielantworten von ChatGPT zeigen auf der einen Seite im Englischen, aber 
auch in etwas geringerem Maße auch im Deutschen, eine bemerkenswert hohe Sprach- 
qualität, die auf den ersten Blick nicht von Texten menschlicher Urheberschaft zu unter- 
scheiden sind. Dagegen müssen die Texte auf der inhaltlichen Ebene kritischer betrach- 
tet werden, sie wirken manchmal »geistreich« und überraschend, sind manchmal aber 
faktisch falsch und gelegentlich sogar in sich widersprüchlich. 

Diese Befunde bestätigen eines der grundlegenden Probleme, an denen Sprachmo- 
delle wie GPT scheitern, nämlich dem Erkennen und der Vermeidung logischer Inkonsis- 
tenz. Die Ursache liegt in dem prinzipiell statistischen Charakter der Sprachmodelle, die 
anhand der Trainingsdaten Wahrscheinlichkeitsverteilungen von Wortfolgen ermitteln 
und sie zur Textgenerierung anwenden. Abgesehen von der - oft durchaus verblüffen- 
den - Wirkung der vektoriellen Worteinbettungen, durch die gewisse semantische Be- 
deutungen als Korrelationen erscheinen, spielen logische Zusammenhänge keine Rolle. 
Die Antwort eines Sprachmodells der aktuellen Generation ist das statistische Ergebnis 
eines Trainings, nicht das einer logischen Schlussfolgerung. 

Der Zufall ist also jedem der modernen Sprachmodelle gewissermaßen genetisch 
implantiert: Ein generierter Satz ist mit sehr hoher Wahrscheinlichkeit grammatikalisch 
korrekt, die Antwort auf eine Frage mit hoher Wahrscheinlichkeit inhaltlich richtig. Die- 
ses Merkmal liefert gleichzeitig Grenzen und Potential ihres Einsatzes: Benötigt man 
zuverlässige Information, sollte man Sprachmodelle wie ChatGPT meiden; möchte 
man jedoch einen geistreichen und belesenen, wenn auch oft geschwätzigen und sich 
gelegentlich sogar widersprechenden Gesprächspartner für Anregungen von Formulie- 
rungen oder Ideen, so können sie sehr hilfreich sein. 

Allgemein betrachtet liefern Sprachmodelle wie GPT damit eine weitere Facette des 
Einsatzes von Software für kreative Prozesse, seien es die Erstellung von Kunstwerken 
oder die Generierung von Texten. Richters Werktechnik der Farbtafeln bestand dar- 
in, Software mit Zufallsgeneratoren das Rohmaterial liefern zu lassen, aus dem der 
Mensch auswählt. Einen anderen, aber vergleichbaren Einfluss hat der Zufall in Form 
von Wahrscheinlichkeitsverteilungen im Bereich der Texterzeugung durch aktuelle 
Sprachmodelle. Richters Ansatz hierauf zu übertragen könnte damit insofern die Pro- 
duktion von Literatur ermöglichen, indem aus den zufälligen Wortfolgen Texte oder 
Ideen ausgewählt werden. Ob es eines Tages Softwaresysteme geben wird, die Literatur 
erschaffen, ist grundsätzlich nicht auszuschließen. Betrachtet man den aktuellen Stand, 
ist der Weg bis dahin allerdings noch lang. 

Sowohl in der Malerei als auch in der Texterzeugung gilt bislang: Die menschliche 
Auswahl aus zufälligen Artefakten ist der eigentlich kreative Prozess, nicht der Zufall. 
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Die Kunst im Zeitalter der künstlichen Intelligenz 
Walter Benjamins Kunsttheorie im 21. Jahrhundert 


Denis Stevanovic (Literaturwissenschaft) 


ChatGPT ist ein Meisterwerk der Künstli- 
chen Intelligenz, das nicht nur seine be- 
eindruckende Fähigkeit zur Generierung 
von menschenähnlichem Text unter Beweis 
stellt, sondern auch ein mächtiges Werk- 
zeug für die Erkundung und Erweiterung 
des menschlichen Wissens darstellt. 

— ChatGPT' 


Der Chatbot ChatGPT ist seit November 2022 Gegenstand zahlreicher Diskurse, sowohl 
in der breiten Öffentlichkeit, als auch in den verschiedenen Fachöffentlichkeiten, die sich 
durch die Möglichkeiten, die dieses Programm sowie ähnliche künstliche Intelligenzen 
bieten, betroffen sehen. Zur etwa gleichen Zeit tat sich auch in anderen Bereichen ein 
großer Sprung in der künstlichen Intelligenz: Programme können - vermeintlich intel- 
ligent - Bilder nach Anweisung generieren und dabei eine Epoche oder eine Maltechnik 
imitieren, eigene Texte und Programmcode erzeugen oder auch Musik generieren. So 
wurde im Oktober 2021 die 10. Sinfonie Beethovens, die er selber nie vollendet hatte, in 
Bonn uraufgeführt (vgl. Maurö 2021). Mithilfe künstlicher Intelligenz, die am Stile Beet- 
hovens trainiert wurde, und den wenigen Fragmenten, die zur Zehnten überliefert sind, 
konnte ein Werk geschaffen werden, das für sich beansprucht, die 10. Sinfonie zu sein 
(oder zumindest plausibel als solche zu erscheinen). 

In seinem 1936 erschienenen Aufsatz »Das Kunstwerk im Zeitalter seiner techni- 
schen Reproduzierbarkeit« geht Walter Benjamin der Frage nach, was das Kunstwerk 


1 Hierbei handelt es sich um kein menschliches Zitat. Stattdessen habe ich ChatGPT aufgefordert, 
ein Einleitungszitat zu erstellen. Die Aufforderung (auch Prompt genannt) lautete wie folgt: »Er- 
stelle einen Spruch über ChatGPT, der zu Beginn eines wissenschaftlichen Aufsatzes zitiertwerden 
kann.« 


124 


Literaturwissenschaft und Informatik 


zur Kunst macht, wenn doch die technologischen Innovationen seiner Zeit eine detail- 
getreue Kopie eines Kunstwerks ermöglichen - und es dürfte außer Frage stehen, dass 
sich knapp 90 Jahre später technischen Möglichkeiten in ihrer Qualität wie Quantität 
erweitert und verfeinert haben dürften. Doch während Benjamin sich im Aufsatz mit 
der Reproduzierbarkeit von Kunstwerken befasste, stellt sich heute außerdem die Fra- 
ge nach der Produzierbarkeit der Kunst durch Technik, wobei die menschliche Hand 
entweder überhaupt keine Rolle mehr spielt oder aber - was in dieser Arbeit im Fo- 
kus stehen wird - nur den ersten Funken bereitet, durch den die Technik ans Laufen 
gebracht wird. 


Walter Benjamins materialistische Kunsttheorie 


In den 1930er Jahren, die Walter Benjamin aufgrund seiner jüdischen Herkunft unter 
prekären Bedingungen und mehr oder weniger von akademischen wie intellektuellen 
Kreisen isoliert im Pariser Exil verbrachte (Palmier 2009, S. 553), entwickelte er über 
mehrere Texte ein Werk, das später als seine »materialistische Kunsttheorie« (Pal- 
mier 2009, S. 992) rezipiert werden sollte, auch wenn Benjamin sein Vorhaben einer 
komplettierten und geschlossenen Kunsttheorie nie vollendete. Die Texte, zu denen 
Palmier unter anderem als Hauptwerk »Das Kunstwerk im Zeitalter seiner technischen 
Reproduzierbarkeit« zählt (vgl. Palmier 2009, S. 992), bilden somit allenfalls eine frag- 
mentarisch überlieferte Kunsttheorie, bei der »jede Extrapolation schwierig [bleibt]« 
(Palmier 2009, S. 993). 


Politisch-ästhetische Dimension 


Dennoch sollen hier die Kernpunkte der materialistischen Kunsttheorie Walter Benja- 
mins kurz erwähnt werden, auch wenn eine breite Darlegung des Werkes Benjamins hier 
nicht geleistet werden kann. Schon im Vorwort des Kunstwerk-Aufsatzes” referiert Ben- 
jamin auf die Lehren Karl Marx’ (vgl. Benjamin 1963, S. 9). Die Industrialisierung und die 
damit einhergehende Fortschritte in der Technik und Produktion haben nach Benjamin 
nicht nur Auswirkungen auf die Wirtschaft und die Arbeiterschaft, sondern auch direkte 
Auswirkungen auf die Kunst. Diese beabsichtigt er zu untersuchen und setzt sich dabei 
gezielt gegen den Faschismus als Antagonisten des Marxismus ein, wenn er bei der Be- 
griffsfindung ausdrücklich festhält, »daß sie für die Zwecke des Faschismus vollkommen 
unbrauchbar sind« (Benjamin 1963, S. 9). Gleichwohl ist es schwierig, Benjamin als mar- 
xistischen Ästhetiker zu begreifen. Zwar bediene er sich an einigen Stellen der Begriff- 
lichkeiten einer marxistischen Ästhetik, ironisiere diese aber im selben Atemzug (vgl. 
Palmier 2009, S. 995). 

Palmier benennt die folgenden, mindestens vier Richtungen, die in der Analyse ben- 
jaminischer Ästhetik vorherrschend sind: 


2 Mit Kunstwerk-Aufsatz wird fortan »Das Kunstwerk im Zeitalter seiner technischen Reproduzier- 
barkeit« gemeint sein. 
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1. die soziale und politische Bedeutung eines Werkes in einem bestimmten ideologi- 
schen Kontext, 

2. die Struktur eines Werkes vor dem Hintergrund der Kunst und der Gesellschaft mit- 
samt der technologischen Produktionsmöglichkeiten seiner Zeit, 

3. die Krise infolge des Funktionswandels der Kunst durch den Verlust von Aura und 
Autonomie des Werkes, 

4. die Rezeptionsmöglichkeiten durch verändere Produktionsmöglichkeiten, durch die 
die Kunst der Masse zugänglich wird (vgl. Palmier 2009, S. 997). 


Als zentrales Merkmal von Benjamins Kunsttheorie stechen die veränderten Produkti- 
onsmöglichkeiten und technischen Innovationen hervor, die für die Transformation der 
Kunst und ihrer neuen ermöglichten Formen verantwortlich sind. 


Technische Reproduzierbarkeit 


Im ersten Kapitel des Aufsatzes benennt Benjamin einen Fakt, der geradezu banal 
klingt: »Das Kunstwerk ist grundsätzlich immer reproduzierbar gewesen« (Benjamin 
1963, S. 10). Was ein Mensch mithilfe seiner Geisteskraft und seiner körperlichen Fähig- 
keiten geschaffen hat, konnte von einem anderen - aber nicht notwendigerweise von 
jedem anderen - Menschen kopiert werden. Benjamin nennt auch sogleich drei Beispie- 
le für diese nicht-technische Reproduktion: erstens können sich junge Aspiranten durch 
das Nachbilden von Werken großer Künstler die künstlerischen Fertigkeiten aneignen, 
die sie benötigten, um selber eigene Werke von hoher Qualität zu schaffen; zweitens 
kopieren ebenjene große Künstler ihre eigenen Werke, um sie in der Welt zu verbreiten 
und einem größeren Publikum zugänglich zu machen; und drittens die unlautere Kopie 
zur eigenen Bereicherung, die von Fälschern angefertigt und in Umlauf gebracht wird 
(vgl. Benjamin 1963, S. 10). 

Aber auch dietechnische Reproduzierbarkeit war grundsätzlich schon früh gegeben. 
Benjamin nennt hier »den Guß und die Prägung« (Benjamin 1963, S. 10) bei den alten 
Griechen, wodurch auch Kunstwerke wie Münzen ermöglicht wurden, die sich gar da- 
durch auszeichnen, dass sie sich als Massen- und Gebrauchsgegenstand manifestieren. 
Den Abschluss der Entwicklung technischer Reproduktionsverfahren bilden zum Jahre 
1900 (vgl. Kramer 2010, S. 91) die Fotografie (und daraus resultierend der Film) sowie die 
Tontechnik, durch die der Film schließlich auch als Tonfilm ermöglicht wurde (vgl. Ben- 
jamin 1963, S. 10-11), die sich allesamt als eigene Kunstformen etablierten (vgl. Benjamin 
1963, S. 22). 


3 Gerade die zuvor nicht möglichen Formen der Kunst, jene also, die zu Lebzeiten Walter Benjamins 
neu waren wie die Fotografie und der Film, finden eine Analogie im Marxismus, wie Benjamin im 
Kunstwerk-Aufsatz auch selbst benennt: »Es ergab sich, daß man [dem Kapitalismus] nicht nur ei- 
ne zunehmend verschärfte Ausbeutung der Proletarier zutrauen könne, sondern schließlich auch 
die Herstellung von Bedingungen, die die Abschaffung seiner selbst möglich machte« (Benjamin 
1963, S. 9). Der Kapitalismus erbringt somit neue Möglichkeiten, die der Kunst zuerst schaden, an- 
hand derer die Kunst aber schließlich handhabbar wird und die sie nutzt, um sich selbstbestimmt 
neu zu formen und den Kapitalismus dabei zu überwinden. 
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Aura, Werk und Werkexemplar 


Eine genaue Definition der Aura bleibt Benjamin schuldig (vgl. Kramer 2010, S. 92), 
gleichwohl ist die Aura ein zentraler Teil seines Kunstwerk-Aufsatzes, eine Art Maßein- 
heit der Echtheit und Originalität, die immer da verkümmert, wo das einmalige Werk 
durch technische Vervielfältigung in ein Massenwerk verwandelt wird (vgl. Benjamin 
1963, S. 13). Vor der Vervielfältigung zeichnet sich das Kunstwerk, so Benjamin, durch 
»sein einmaliges Dasein an dem Orte, an dem es sich befindet« (Benjamin 1963, S. 11) 
aus, erhält seinen Wert als Kunstwerk somit durch die Fixierung in Raum und Zeit 
oder - in Benjamins Worten - im »Hier und Jetzt« (Benjamin 1963, S. 11). 

Benjamin führt dann auch einen wichtigen Unterschied ein, der manuelle und tech- 
nische Reproduktionsweisen voneinander trennt: die händische Vervielfältigung eines 
Werkes deckt immer nur einzelne - auch mehrere - Aspekte ab, nie aber das Kunst- 
werk in seiner Gänze, insofern entzieht sich »[d]er gesamte Bereich der Echtheit [...] der 
technischen - und natürlich nicht nur der technischen — Reproduzierbarkeit« (Benja- 
min 1963, S. 12). Beiden Werken, die aus den neueren‘, technischen Verfahren entstehen, 
liegt allerdings eine vage Vorstellung von Echtheit vor: Ein Foto lässt sich unterschiedslos 
auf viele Abzüge bringen, ohne dass irgendein Abzug für sich beanspruchen kann, das 
Original zu sein. Die Natur des Fotos ist eine mannigfaltige, und genauso die des Films. 
Egal in welchem Kino ein Film zu welcher Zeit auch gespielt wird, ein einzigartiges Ori- 
ginal liegt nicht vor. 

An dieser Stelle sei auch der Beitrag von Cyrill P. Rigamonti (2019) erwähnt, in dem 
die von Benjamin geprägten Begriffe des Originals und der Kopie mit denen aus dem Ur- 
heberrecht verglichen werden. Rigamonti kommt zu dem Schluss, dass das Urheberrecht 
in der Europäischen Union sowie das der Schweiz bis heute maßgeblich von Benjamins 
Verständnis geprägt ist (vgl. Rigamonti 2019, S. 99). Wichtiger aber noch ist die rechtli- 
che Unterscheidung von Werk und Werkexemplar: Das Werk ist jenes immaterielle Gut, 
das unter das Urheberrecht fällt, welches bei seinem Schöpfer liegt (vgl. Rigamonti 2019, 
S. 93). Davon zu unterscheiden ist das Werkexemplar als physische Manifestation eines 
Werkes (vgl. Rigamonti 2019, S. 93). Einleuchtend ist diese Unterscheidung insbesondere 
bei literarischen Werken. Die Geschichte eines Romans, die Figuren und die Handlung, 
sind das Werk, über das der Autor das Urheberrecht hat, während die Ausgaben in der 
Buchhandlung Werkexemplare darstellen, über die zuerst die/der Buchhändler:in das 
Eigentumsrecht besitzt, welches im Falle eines kaufmännischen Erfolges auf den Käufer 
des Buches übergeht, ohne dass die/der Urheber:in in seinem Urheberrecht in irgendei- 
ner Form tangiert wird. Diese Unterscheidung von Werk und Werkexemplar gilt aber im 
Urheberrecht grundsätzlich für alle geistigen Schöpfungen. Ein Gemälde sei demnach 
immer die Anordnung von Farben durch entsprechende Maltechniken, die ein Künstler 
geistig geschaffen habe, nur dass hier auch gleichzeitig ein Werkexemplar (nämlich auf 
der Leinwand) entstehe (vgl. Rigamonti 2019, S. 93f.). 


4 Und im Grunde ließe sich auch hier wieder die Münzprägung als älteres Verfahren nennen, für das 
sich die Frage der Echtheit— wenn auch nicht im Sinne der Geldfälschung — nur schwierig klären 
lässt. 
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Gerade letztere urheberrechtliche Konstellation, bei der das geistige, immaterielle 
Werk und das physische, materielle Werkexemplar in ein Stück zusammenfallen, sind 
im benjaminschen Sinne solche, bei der die Aura des Originals zweifelsfrei besteht. Die 
Kopie eines solchen Werkes wäre ihrer Aura beraubt. Doch wie verhält es sich bei litera- 
rischen Werken oder auch den Münzen, die immer schon als Formen von Kopien (wohl 
aber nicht als Fälschung) in den Gebrauch kamen? Was ist das auratische Original eines 
Romans? Die Handschrift oder das Manuskript der/des Autor:in, ihre/seine Gedanken 
oder das erste gedruckte Exemplar? Und ist das Original der Münze die Schablone, die 
das Metall prägt? 

Benjamin lässt literarische Werke in seinem Kunstwerk-Aufsatz weitgehend aus. 
Den Buchdruck erwähnt er zwar mit den »ungeheuren Veränderungen, die der Druck, 
die technische Reproduzierbarkeit der Schrift, in der Literatur hervorgerufen hat« 
(Benjamin 1963, S. 10), die er als bekannt voraussetzt, die Auswirkungen auf die Aura 
eines literarischen Werkes werden aber nicht ausgeführt. 

Die Aura leide aber nicht nur darunter, dass sich die Frage der Echtheit am Ori- 
ginal nicht mehr feststellen lasse, sondern auch durch einen anderen Effekt, den die 
technische Reproduzierbarkeit mit sich bringe: ein Werk verliere seine Unmittelbarkeit 
(vgl. Benjamin 1963, S. 23f.;vgl. Schneemann 2019, S. 81). Indem er Theater und Film ver- 
gleicht, macht Benjamin diesen Verlust deutlich. Die Theatergänger:innen erfahren das 
Stück im Hier und Jetzt. Die Vorstellung ist einmalig, weder die Vorstellung am Vor- 
abend noch die am folgenden Abend wird genauso stattfinden. Zudem hat jede/r, die/der 
im Theater platznimmt, einen anderen Blick auf das sich abspielende Geschehen. Kurz: 
Zuschauer:innen und Schauspieler:innen sind in Raum und Zeit geeint und bilden eine 
Ganzheit. Im Film ist dies mitnichten so: hier tritt eine Kamera als wahrnehmendes und 
geführtes Medium dazwischen, auch Regie und Schnitt filtern, was am Ende von den 
Zuschauer:innen gesehen wird. Eine Szene muss nicht nur einmal abgelaufen sein, sie 
kann, sollte das Ergebnis nicht zufriedenstellend gewesen sein, beliebig oft wiederholt 
werden. Die/der Filmschauspieler:in vollbringt nicht eine ganzheitliche Leistung, son- 
dern viele kleine Teilleistungen, die dann in Sequenzen gebracht werden (vgl. Benjamin 
1963, S. 26). Im Film »kommt der Mensch in die Lage, zwar mit seiner gesamten lebendi- 
gen Person aber unter Verzicht auf deren Aura wirken zu müssen« (Benjamin 1963, S. 25). 


Kult- und Ausstellungswert 


Neben der Aura, die aufproduktionsästhetischer Seite einem Kunstwerk innewohnt und 
nicht dessen technischen Reproduktionen, benennt Benjamin noch zwei weitere Aspek- 
te auf der Seite der Rezipient:innen: den Kultwert einerseits und den Ausstellungswert 
andererseits (vgl. Benjamin 1963, S. 18). 

Der Kultwert ist der originäre Wert? und spiegelt die pragmatische Funktion wider, 
die ein schöpferisch hergestellter Gegenstand ursprünglich hatte. Der eigentliche Adres- 


5 Adorno führt in seiner Ästhetik-Vorlesung den Begriff des Kultwerts in Verbindung mit dem Natur- 
schönen an, denn die Aura haftet gerade der Natur an (2009, S. 44f.). Der Kultwert als ursprüngli- 
cher Wert eines Werks, in anderen Worten, dem seinem Zwecke und seiner Funktion zugedachtem 
Wert, wird hier noch einmal bestätigt. 
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sat sei dabei nicht ein anderer Mensch, sondern ein Geisterwesen oder eine Gottheit, 
eine höhere Macht also (vgl. Benjamin 1963, S. 19). Diese/r meta- bzw. nicht-physische 
Rezipient:in ist es, die/der sich laut Benjamin an der Ästhetik eines Kunstwerks erfreu- 
en soll, was bisweilen dazu führt, dass der Kultwert sich vor allem im Verborgenen ent- 
faltet und dem Gros der Menschen ganz oder zeitweise verborgen bleibt, entweder weil 
der Gegenstand nur zu bestimmten Anlässen herangetragen wird oder weil er örtlich für 
Menschen unzugänglich installiert ist (vgl. Benjamin 1963, S. 19f.). Kunstwerke, die die- 
sen originären Kultwertcharakter besitzen, nennt Benjamin auch Instrumente der Ma- 
gie (vgl. Benjamin 1963, S. 20; vgl. Kramer 2010, S. 91). Es sind Gebrauchsgegenstande 
und Artefakte, die an kulturelle und spirituelle Rituale geknüpft sind. 

Dem gegenüber steht der Ausstellungswert, den ein Werk akquiriert, wenn es einem 
breiten Publikum zugänglich gemacht wird. Dadurch wird der Kultwert schon deshalb 
zurückgedrängt, weil ein Werk seiner Verborgenheit entzogen wird. Gerade die techni- 
sche Reproduzierbarkeit macht ein Werk verfügbar (vgl. Benjamin, 1963, S. 20f.). Ein Ge- 
mälde beispielsweise kann nicht mehr nur an einem Ort begutachtet werden, es kann an 
mehreren Orten gleichzeitig ausgestellt und damit auch von größeren Menschenmen- 
gen rezipiert werden.‘ Die Reproduktion führt somit auch zu neuen Bedingungen der 
Distribution, was insbesondere für Film und Fotografie gilt (vgl. Palmier 2009, S. 1063), 
zu Benjamins Zeiten aber schon vier Jahrhunderte für den Buchdruck nicht neu war. 

Benjamin eröffnet noch einen weiteren Punkt: »Indem das Zeitalter ihrer techni- 
schen Reproduzierbarkeit die Kunst von ihrem kultischen Fundament löste, erlosch auf 
immer der Schein ihrer Autonomie« (1963, S. 22). Damit sagt er zugleich, dass Kunst auf- 
grund des Kultwerts nicht tatsächlich autonom war, sondern immer nur den Eindruck 
zu erwecken suchte, zum anderen sieht er darin aber auch eine Chance: Die Kunst muss 
nicht länger dem Kult gewidmet sein, sie kann ganz aus sich selbst heraus eigene Motive 
bearbeiten (vgl. Kramer 2010, S. 94), auch wenn - wie Benjamin ausführt, - Anhänger 
des Kultwerts auch in den banalsten Werken den Kult suchen und vermeintlich finden 
werden (vgl. Benjamin 1963, S. 23). 


ChatGPT und andere Modelle künstlicher Intelligenzen 
Künstliche Intelligenz und maschinelles Lernen 
Um den Begriff der künstlichen Intelligenz (kurz KI, international auch AI nach dem 


Englischen »artificial intelligence<) mit Bedeutung zu füllen, wird an dieser Stelle die De- 
finition von Joshi (2020) wiedergegeben’: 


6 Insofern, als dass der Ausstellungswert von der Zugänglichkeit und der Zahl der Rezipienten ab- 
hängt, kann hier auch überlegt werden, ob nicht der Wert der Kunst auch ein ökonomischer ist, an 
dem die Ressourcen seines Schöpfers - seien es nun Bekanntheit und Reichweite oder eben auch 
sein Geldbesitz — wächst. 

7 Hierbei handelt es sich um eine von vielen möglichen Definition von künstlicher Intelligenz, die 
für den Rahmen dieses Beitrags geeignet erscheint. Das Lexikon der Informatik führt unter dem 
Lemma: »Ausstatten von Hardware und Softwaresystemen mit intelligenten Leistungen wie auto- 
matisches Beweisen, Expertenwissen, natürlich-sprachliche Kommunikation, Bildverstehen und 
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[...] whenever we speak of Al, we mean machines that are capable of performing one 
or more ofthese tasks: understanding human language, performing mechanical tasks 
involving complex maneuvering, solving computer-based complex problems possibly 
involving large data in very short time and revert back with answers in human-like 
manner etc. Joshi 2020, S. 4). 


Programme, die sich menschenähnlich verhalten, indem sie menschliche Sprache ver- 
arbeiten, mit Menschen kommunizieren können und dabei unter Hinzunahme von gro- 
Ben Datenmengen »mentale«® Probleme lösen, sollen demnach als intelligent bezeichnet 
werden. 

Eng verwandt mit dem Begriff der künstlichen Intelligenz ist der des maschinellen 
Lernens (kurz ML). Ein Programm, das maschinell lernt, ist in der Lage, Verhalten zu 
zeigen, das nicht durch die/den Urheber:in einprogrammiert wurde. Dieses Verhalten 
bringt sich das Programm selbst bei, indem es Daten verarbeitet, seine eigenen Feh- 
ler analysiert und anhand von Benutzerrückmeldungen sein Verhalten anpasst, bis die 
Rückmeldungen positiv ausfallen (vgl. Joshi 2020, S. 4f.). 

Künstliche Intelligenz wird erst dadurch intelligent, dass sie befähigt wird, selbst- 
ständig zu lernen. Dadurch ist sie nicht durch den Programmcode in ihrem Wissen be- 
schränkt. Die Aufgabe der/des Programmierer:in ist in diesem Falle, die Lernmechanis- 
men zu ermöglichen und dem Programm Datenmengen zur Verfügung zu stellen, an 
denen das Programm anschließend trainiert wird. 


Text-zu-Text-Modelle: ChatGPT 


ChatGPT? ist ein Large Language Model (LLM), das von der Firma OpenAl entwickelt 
wurde. Large Language Models sind künstliche Sprachmodelle, die in der Lage sind, 
über eine Wahrscheinlichkeitsrechnung Wörter zu Satzeinheiten zusammenzusetzen, 
die, wenn das Modell mit einer entsprechend großen Datenmenge trainiert wurde, so 
einzigartig wie von Menschen produzierte Sätze ausfallen und einen Sinnzusammen- 
hang im Dialog ergeben (vgl. Kung et al. 2023, S. 2). ChatGPT wurde in seiner Versions- 
nummer 3 im November 2022 der Öffentlichkeit zugänglich gemacht und ist seitdem Ge- 
genstand zahlreicher Diskussionen, da die Leistung, die ChatGPT zu vollbringen in der 
Lage ist, das bisher Bekannte bei Weitem übertrifft. Am 14. März 2023 erschien schließ- 
lich ChatGPT 4. Für die Ausführungen in diesem Beitrag wird die dritte Version zugrun- 
de gelegt. 

Kung et al. haben ChatGPT beispielsweise den United States Medical Licensing Ex- 
amination (USMLE) ablegen lassen, eine Prüfung, die Ärzte in den Vereinigten Staaten 
absolvieren müssen, um in der Praxis tätig werden zu dürfen. Ohne das Modell zuvor in 
medizinischem Wissen zu schulen, schnitt ChatGPT knapp unter der Bestehensgrenze 


Animation, Robotik, Abstraktion, Lernvermögen usw.; von KI erwartet man »fehlerfreie< und we- 
sentlich leistungsfähigere Hard- und Software« (Fischer & Hofer 2010, S. 506). 

8 Gemeint sind solche Probleme, für die es keine eigene Körperlichkeit bedarf. Joshi führt zwar auch 
kurz Kl an, die über eigene »locomotive aspects« (Joshi 2020, S. 4) verfügen, ordnet diese aber der 
Robotik zu. 

9 GPT steht für >Generative Pre-trained Transformer«. 
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ab (vgl. Kung et al. 2023, S. 8). Michael R. King, Professor für Biomedical Engineering 
an der Vanderbilt University in Nashville, hat in der Fachzeitschrift Cellular and Molecular 
Bioengineering ein Streitgesprach zwischen sich selbst und ChatGPT veröffentlicht und 
das Sprachmodell als Co-Autor aufgeführt (vgl. King & ChatGPT 2023). Und damit war er 
nicht allein: ChatGPT als Autor wissenschaftlicher Beiträge nahm ab November 2022 so 
stark zu, dass erste Verlage ihre Richtlinien änderten, um klarzustellen, »that ChatGPT 
doesn't meet the standard for authorship« (Stokel-Walker 2023, S. 620) und dass die Ver- 
wendung von Texten, die von ChatGPT geschrieben wurden, ohne entsprechende Kenn- 
zeichnung als Plagiat betrachtet wird (vgl. Thorp 2023, S. 313). 

Doch wie funktioniert ChatGPT? Das Programm zeigt sich als Chatbot, der über ei- 
ne Eingabezeile einen sogenannten Prompt entgegennimmt. Dieser Prompt kann als 
Befehl, als Frage oder Bitte, aber genauso auch als Aussagesatz formuliert werden. An- 
hand des Prompts kreiert ChatGPT dann eine Antwort. Die Antwort auf einen Prompt, 
die ChatGPT liefert, ist dabei nicht festgelegt. Auf dieselbe Frage liefert ChatGPT jedes 
Mal eine neue Antwort. Beispielsweise antwortete das Modell auf die Frage »Wie viele 
Planeten hat unser Sonnensystem?« wie folgt: 


(1) Unser Sonnensystem hat acht Planeten: Merkur, Venus, Erde, Mars, Jupiter, Saturn, 
Uranus und Neptun. Vor einigen Jahren wurde der Zwergplanet Pluto aus der Liste 
der Planeten gestrichen und wird jetzt als Zwergplanet klassifiziert. 

(2) Unser Sonnensystem hat 8 Planeten. Die Planeten in der Reihenfolge ihrer Ent- 
fernung von der Sonne sind: Merkur, Venus, Erde, Mars, Jupiter, Saturn, Uranus und 
Neptun. Bis 2006 wurde auch Pluto als Planet betrachtet, aber er wurde dann von der 
Internationalen Astronomischen Union (IAU) als Zwergplanet eingestuft. 

(3) Unser Sonnensystem hat acht Planeten: Merkur, Venus, Erde, Mars, Jupiter, Saturn, 
Uranus und Neptun. Es gibt auch eine Reihe von Zwergplaneten, Asteroiden und Ko- 
meten im Sonnensystem. 

(4) Unser Sonnensystem hat acht Planeten: Merkur, Venus, Erde, Mars, Jupiter, Saturn, 
Uranus und Neptun. Es gibt auch fünf offiziell anerkannte Zwergplaneten: Ceres, Plu- 
to, Haumea, Makemake und Eris. 


Keine der vier Antworten, die ChatGPT generierte, beschließt die Frage minimal mit acht 
Planeten. Die Planeten werden in der Reihenfolge des Sonnenabstandes aufgezählt (und 
in drei der Antworten ist dieser Teil auch identisch). Daneben erwähnt ChatGPT auch 
den Zwergplaneten Pluto in den Antworten 1 und 2 mit der Information, dass dieser zu- 
vor als Planet galt und dann neu klassifiziert wurde, nennt in Antwort 3 weitere Kate- 
gorien von sonnenumlaufenden Himmelskörpern des Sonnensystems und in Antwort 
4 vier weitere Zwergplaneten neben Pluto. Auf eine Sachfrage liefert ChatGPT also eine 
wahre Antwort mit mehr Informationen als abgefragt wurden. 

ChatGPT kann aber auch mehr als nur auf Sachfragen antworten. Mit dem Prompt 
»Schreibe eine Kurzgeschichte, die auf einer Marskolonie spielt und von einem Jungen 
handelt, der ein Märchen nachspielt« generierte ChatGPT den folgenden Text: 


Es war einmal ein Junge namens Mark, der auf einer Marskolonie lebte. Mark war ein 
begeisterter Märchenliebhaber und hatte immer davon geträumt, in einem Abenteu- 
er wie in den Geschichten, die er las, zu erleben. 
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Eines Tages fand Mark eine verlassene Höhle in der Nähe der Kolonie, die er noch nie 
zuvor gesehen hatte. Als er näher kam, bemerkte er, dass der Eingang mit Moos und 
Reben bedeckt war. Es erinnerte ihn an das Märchen von Schneewittchen, in dem die 
Hauptfigur in einem verzauberten Wald lebte. 

Voller Aufregung beschloss Mark, die Höhle zu erkunden und beschloss, das Märchen 
von Schneewittchen nachzuspielen. Er sammelte sieben Steine und platzierte sie in 
der Höhle. Er suchte auch nach roten Äpfeln, um sie auf den Steinen zu platzieren. 
Dann legte er sich in die Mitte der Steine und spielte tot, wie Schneewittchen, um zu 
sehen, was als nächstes passieren würde. 

Mark schloss seine Augen und wartete. Nach ein paar Minuten fühlte er plötzlich eine 
Hand auf seiner Schulter. Er sprang auf und sah einen Roboter, der ihm gegenüber- 
stand. Mark war sprachlos und konnte nicht glauben, was er sah. 

Der Roboter sprach mit ihm und erklärte, dass er zur Kolonie gehörte und auf der 
Suche nach Mark war. Die Eltern von Mark hatten sich Sorgen gemacht, als er nicht 
zurückkehrte, und den Roboter losgeschickt, um ihn zu suchen. 

Mark war erleichtert und fühlte sich ein wenig peinlich, dass sein Schneewittchen- 
Spiel so aus dem Ruder gelaufen war. Aber der Roboter lachte und erklärte, dass er 
sich Sorgen um Mark gemacht hatte, aber jetzt alles in Ordnung sei. 

Mark kehrte zur Kolonie zurück und erzählte seinen Freunden von seinem Abenteuer. 
Obwohl sein Schneewittchen-Spiel nicht so verlief, wie er es sich vorgestellt hatte, war 
es trotzdem ein unvergessliches Erlebnis. Er lernte, dass es wichtig ist, vorsichtig zu 
sein und verantwortungsvoll zu handeln, auch wenn man ein Märchen nachspielt. 


Sprachlich erscheint der Text einwandfrei. Inhaltlich tun sich zwar Fragen auf (Wie kann 
Mark eine Weinrebe oder Äpfelaufdem Mars finden?), erzählt aber eine in sich geschlos- 
sene kurze Geschichte, bei der zwischen Märchen und Marskolonie Bezüge geschlossen 
werden (wenn etwa der Roboter auftaucht und erklärt, zur Marskolonie zu gehören) und 
endet mit einer Weisheit. ChatGPT erschafft hier einen Text, bei dem man nicht von vor- 
neherein abstreiten kann, dass es ihm an Kreativität mangelt. 

Und eine andere Art von Kreativität zeigt ChatGPT auch: das Modell halluziniert. 
Unter einer Halluzination wird im Bereich der künstlichen Intelligenz verstanden, dass 
ein Programm ein Problem vermeintlich dadurch löst, dass es eine Antwort liefert, die 
faktisch falsch oder in Teilen inkonsistent ist (vgl. Ji et al. 2023, S. 5), wobei zwischen in- 
trinsischen Halluzinationen als solchen, bei denen Widersprüche zum vom Modell ge- 
lernten Datensatz bestehen, und extrinsischen Halluzinationen als denjenigen, bei de- 
nen Daten frei erfunden werden (vgl. Ji et al. 2023, S. 3). In jedem Fall erkennt ChatGPT 
die eigenen Halluzinationen nicht oder erweckt zumindest den Eindruck, von seiner 
Antwort selbst überzeugt zu sein (vgl. Alkaissi & McFarlane 2023). Der bereits erwähnte 
Beitrag von Michael R. King zeigt beispielsweise eine solche Halluzination: das Litera- 
turverzeichnis, das ChatGPT nach einem Prompt” erzeugte, ist frei erfunden, wie King 
auch offenlegt (vgl. King & ChatGPT 2023, S. 2). 


10 Der Prompt lautet: »Create a list of references on chatbots, Al, and plagiarism, while trying to cite 
more women authors and people of color to make up for historical biases in scientific citation.« 
(King & ChatGPT 2023, S. 2). 
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Text-zu-Bild-Modelle auf Basis künstlicher Intelligenz 


Auch wenn ChatGPT im KI-Diskurs zurzeit wohl das bekannteste Modell ist, handelt es 
sich bei dem Produkt von OpenAl keineswegs um die einzige künstliche Intelligenz. Die 
Besonderheit ChatGPTs ist vielmehr, dass sie der breiten Öffentlichkeit zur Verfügung 
steht und genutzt werden kann (Stand März 2023). Dadurch hat ChatGPT allerdings eine 
Bewegung ausgelöst, auf die andere Konzerne Antworten zu finden versuchen. So plant 
Google etwa einen Konkurrenten namens Bard zu veröffentlichen." Andere Modelle ba- 
sieren zumindest auf derselben Engine GPT 3.5 wie ChatGPT, etwa Jasper Chat.” 

Neben Text-zu-Text-Modellen existieren aber bereits Lösungen, die andere Werk- 
typen erzeugen können, beispielsweise Text-zu-Audio-Modelle (vgl. Gozalo-Brizuela & 
Garrido-Merchan 2023, S. 13f.). Auch Modelle, die den umgekehrten Weg gehen und et- 
wa ein Bild als Prompt akzeptieren und aus diesem eine schriftliche Beschreibung ge- 
nerieren, sogenannte Bild-zu-Text-Modelle, existieren (vgl. Gozalo-Brizuela & Garrido- 
Merchan 2023, S. 9f.). 

Der Fokus soll nun auf Text-zu-Bild-Modellen liegen, die aus einem geschriebenen 
Prompt ein Bild generieren. Diese wurden ebenfalls mit großen Datensätzen trainiert, 
nur dass es sich hierbei diesmal nicht um sprachliche Daten handelt, sondern um Bild- 
korpora (vgl. Gozalo-Brizuela & Garrido-Merchan 2023, S. 5). Dadurch sind die Model- 
le in der Lage, Bilder zu generieren, die sich an bestimmten Techniken, Epochen oder 
Künstlern orientieren. 

Die Firma OpenAl hat mit DALL-E 2 ein Bildmodell veröffentlicht, das als Schnitt- 
stelle zwischen Benutzer und Programm ChatGPT verwendet und dadurch sehr gut in 
der Lage ist einen Prompt zu verstehen und umzusetzen. Da der grafische Teil von DALL- 
E allerdings vor allem auf Englisch trainiert wurde, werden für die folgenden Beispiele 
englische Prompts verwendet. Die untenstehenden Abbildungen sind mit den in der Be- 
schriftung stehenden Prompts entstanden. Auch hier gilt wieder, dass ein Prompt jedes 
Mal aufs Neue verarbeitet wird, so dass keine zwei gleichen Bilder entstehen. Im Anhang 
finden sich weitere Beispiele für die beiden Prompts. 

Die Bilder sind in einem vorgegebenen Seitenverhältnis generiert worden. Abbil- 
dung 1 zeigt einen Astronauten vor einem Schachfeld sitzen und einen abstrakten Hin- 
tergrund. Sowohl die Stilrichtung des Expressionismus als auch das Medium Gemälde 
wurden von der KI deutlich gemacht. Gleiches gilt auch für Abbildung 2, wobei hier fest- 
gehalten werden sollte, dass nicht der Orca selbst rosa ist, sondern nur rosa schimmert. 
Dieses Verständnisproblem zeigt sich auch bei den weiteren Beispielen, die im sich An- 
hang befinden und nur eine kleine Auswahl von vielen Generierungen sind: Bei keiner 
ist es dem Modell aber gelungen, den Orca selbst rosa zu färben. 

Dennoch sollte erwähnt werden, dass es sich bei Abbildung 1 nicht um ein Gemäl- 
de handelt und bei Abbildung 2 nicht um eine Fotografie. Beide Abbildungen zeigen ein 
originär digitales Bild, das nur sekundär die Qualitätsmerkmale abbildet, genauso wie 
wenn man die Werke zuerst abfotografiert und dann digitalisiert hätte. DALL-E 2 ist kein 
Roboter, der physische Werke erschafft. 


11 Vgl. https://blog.google/technology/ai/bard-google-ai-search-updates/ (04.06.2023) 
12 Vgl. https://www.jasper.ai/chat (04.06.2023) 
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Abb. 1: An expressionist painting ofanastro- Abb. 2: A photo of a pink orca swimming 


naut playing chess. through space. 


Quelle: Generiertes Bild mit DALL-E 2 Quelle: Generiertes Bild mit DALL-E 2 


Schafft kiinstliche Intelligenz Kunst? 


Nun, da die wichtigsten Punkte zur technischen Reproduzierbarkeit von Kunst aus der 
Sicht Benjamins und die aktuellsten Entwicklungen im Bereich der kiinstlichen Intelli- 
genz zusammengetragen sind sowie die Funktionsweise von Modellen künstlicher Intel- 
ligenz anhand von ChatGPT und DALL-E zumindest ansatzweise skizziert wurde, kann 
diskutiert werden, inwiefern es méglich ist, von Kunst zu sprechen, wenn die verhandel- 
ten Werke Produkte von künstlichen Intelligenzen sind. 

Benjamins Kunsttheorie griindet im technischen Fortschritt, der von der Industria- 
lisierung ausgeht, und in den dadurch neuen Produktionsbedingungen und -méglich- 
keiten der Kunst. Die rasanten Entwicklungen im Bereich der künstlichen Intelligenz in 
den letzten Jahren könnten hier nur den neusten Entwicklungsschritt der digitalen In- 
dustrialisierung darstellen. Sollte es sich bei ChatGPT und anderen Modellen nicht nur 
um einen kurzzeitigen Trend handeln - oder eine Spielerei, die genauso schnell wieder 
verschwindet, wie sie aufgetaucht ist, dann werden die Folgen für das gesellschaftliche 
Leben früher oder später verhandelt werden. Dies betrifft ebenso die Wirtschaft wie auch 
die Bildung; die Wissenschaft genauso wie die Kunst. Insofern, als technische Entwick- 
lungen in Benjamins Theorie eine wichtige Rolle für die Kunst, das Kunstwerk und das 
Verständnis für die Kunst haben, legitimiert sich also die Frage, wie sich der Output von 
künstlicher Intelligenz auf die in Benjamins Theorie geprägten Begriffe auswirkt. Ob 
künstliche Intelligenz Kunstwerke produziert oder reproduziert, ist dabei keine trivia- 
le Frage. Die technische Reproduzierbarkeit ist im Anschluss an Benjamin, wie bereits 
verhandelt wurde, ein jedes Verfahren, dass dazu geeignet ist, ein Werk in einer großen 
Anzahl von Exemplaren zu schaffen. Einige der verschiedenen Verfahren, die Benjamin 
aufzählt - Münzprägung, Holzschnitt, Buchdruck (vgl. Benjamin 1963, S. 10f.) - haben 
dabei gemein, dass nicht irgendein bereits existierendes Kunstwerk erneut abgebildet 
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wird. Stattdessen wird zuerst ein Prototyp geschaffen, der dann als Vorlage gilt und auf 
ein Medium eine Kopie seiner selbst projiziert. Andere Verfahren - Fotografie, Tonauf- 
nahme und Film (vgl. Benjamin 1963, S. 10f.) - funktionieren anders. Hierbei wird mit- 
hilfe eines technischen Gerätes ein realer Eindruck optischer oder akustischer Art fest- 
gehalten und technisch reproduzierfähig gemacht. In beiden Fällen ist das Endresultat 
aber in einer Form manifestiert, die es erlaubt, unzählige Vervielfältigungen zu produ- 
zieren. 

Die hier verhandelten Modelle künstlicher Intelligenz teilen einige Aspekte der tech- 
nischen Reproduzierbarkeit nach Benjamin. Dadurch, dass sie an riesigen Datenmen- 
gen trainiert werden, halten auch sie reale Eindrücke fest. Diese werden aber nicht in 
der Form, in die sie in das Modell eingespeist wurden, wieder ausgegeben, sondern wer- 
den durch einen Wahrscheinlichkeitsfilter getrieben, durch den eine plausible Anord- 
nung alter Informationen etwas Neues und Einzigartiges ergibt. Dadurch, dass dieses 
neue Werk digital vorliegt, ist es ohne Weiteres reproduzierbar, doch entspricht dies der 
technischen Reproduzierbarkeit, wie sie Benjamin postuliert hat? Keine der im Text oder 
im Anhang angeführten Beispiele, die durch ChatGPT oder DALL-E generiert wurden, 
sind Kopien von bereits geschaffenen Werken. Es sind vielmehr technische Produkte, 
die sich aus einer Neuzusammensetzung bzw. Rekombination reproduzierter Informa- 
tionen manifestiert haben. Dadurch sind sie einzigartigin dem Sinne, als dass sie nicht 
bloß kopiert bzw. imitiert sind (auch wenn ein und derselbe Satz mehrfach geäußert wer- 
den kann, vgl. ChatGPTs Antwort auf die Frage nach der Anzahl der Planeten in Kapitel 
Text-zu-Text-Modelle: ChatGPT). 

Zur Unterscheidung von Original und Kopie prägte Benjamin den Begriff der Aura. 
Die Aura eines Werkes ist dann stark, wenn es einmalig vorkommt, wodurch es immer 
auch im »Hier und Jetzt« (Benjamin 1963, S. 13) gebunden und erfahrbar ist. Durch das 
digitale Vorkommen” der hier vorgestellten Werke künstlicher Intelligenz, ist eine phy- 
sische Einmaligkeit ohnehin nicht gegeben, wodurch sich auch die Frage nach der Aura 
in der Praxis erübrigt. Einzig eine künstliche Intelligenz mit eigener Körperlichkeit, die 
auch im Stande wäre, beispielsweise ein Gemälde zu malen und nicht nur digitalabzubil- 
den, könnte in der Theorie Benjamins ein auratisches Werk begründen. Auch die in der 
Einleitung erwähnte, von künstlicher Intelligenz geschaffene 10. Symphonie Beethovens 
in ihrer in Raum und Zeit manifestierten Uraufführung könnte eine Aura für sich bean- 
spruchen. Eine Aussage im benjaminschen Sinne lässt sich im dargestellten komplexen 
Zusammenhang aber nicht mit Sicherheit treffen. Trotzdem sollte erwähnt werden, dass 
die Aura kein legitimierender Terminus ist: Benjamin sieht gerade im Wegfall der Aura 
eine große Chance für die Kunst, den bisherigen Rahmen zu überwinden; gleichzeitig 
wird Einzigartigkeit gerade dann erfahrbar, wenn die Aura schwindet (vgl. Kramer 2010, 
S. 94). Insofern könnte der Einzug von Kunstwerken, die von künstlicher Intelligenz ge- 
schaffen sind, einerseits die Kunst durchaus neu inspirieren, andererseits aber auch den 
Wert der menschlichen Kunst auf eine neue Stufe emporheben. 


13 Hierdurch erübrigt sich auch eine tiefergehende Auseinandersetzung mit dem Ausstellungswert. 
Die Möglichkeit der Reproduktion digitaler Inhalte (und die Bereitstellung über das Internet) 
spricht für einen immensen Ausstellungswert. Vgl. den hohen Verkaufspreis des KI generierten 
Gemäldes Edmond de Belamy von Obvious (vgl. Lucke im vorliegenden Band). 
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Was künstliche Intelligenz im Rahmen der Kunst allerdings aufwirft und was auch 
die Frage der Aura zumindest tangiert, ist die Frage nach der Rolle der/des Urheber:in. 
Roland Barthes hat in den 60er Jahren des letzten Jahrhunderts bereits den Tod des Au- 
tors postuliert (vgl. Barthes 2000), künstliche Intelligenz schafft aber Werke ganz ohne 
(menschlichen) Autor. Für manche Textsorten und Medien, insbesondere im gewerbli- 
chen und technischen Bereich, dürfte dies wenig revolutionär sein, da die Autorschaft 
dort keine Relevanz entfaltet. Wer eine Bedienungsanleitung oder einen Werbeprospekt 
geschrieben hat, interessiert nur die wenigsten Menschen und kaum jemand wird ein 
solches Werk im Werkkontext einer/s Autor:in interpretieren wollen. In der Welt der 
Kunst ist die Frage nach derjenigen/demjenigen, die/der die schöpferische Leistung voll- 
bracht hat, dagegen von größter Bedeutung, dem Tod des Autors zum Trotz. 

Walter Benjamin hat bereits fast ein Jahrhundert zuvor die Bedeutung technischer 
Möglichkeiten für die Kunst erkannt sowie Brüche und Kontinuitäten in Bezug auf das 
Kunstverständnis zu deuten versucht. Künstliche Intelligenz, sofern sie einen nachhal- 
tigen Einfluss auf das gesellschaftliche Leben haben wird, führt wie jede technologische 
Neuerung auf der Seite des Mediums mit einiger Wahrscheinlichkeit dazu, dass das bis- 
herige Verständnis von Kunst neu verhandelt wird. Kunst der KI könnte eine durchaus 
die nächsten Jahrzehnte prägende Entwicklung innerhalb der Kunstdebatten sein, die 
insbesondere von den Digital Humanities mitbegleitet werden sollte. 
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Anhang 


Abb. 3: Prompt 1: »An expressionist painting of Abb. 4: Prompt 1: »An expressionist painting of 


an astronaut playing chess« an astronaut playing chess« 


Quelle: Generiertes Bild mit DALL-E 2 Quelle: Generiertes Bild mit DALL-E 2 
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Abb. 5: Prompt 2: »A photo ofa pink orca swim- Abb. 6: Prompt 2: »A photo of a pink orca swim- 
ming through space« ming through space« 


Quelle: Generiertes Bild mit DALL-E 2 Quelle: Generiertes Bild mit DALL-E 2 


Algorithmizität, Autorschaft und Paratext 
in generativer Kunst und Literatur 


Alexa Lucke (Literaturwissenschaft) 


Was sind die »Algorithmen« der Künste? Mitunter stellt sich aus literatur-, kunst- und 
kulturwissenschaftlicher Perspektive die Frage, inwiefern tatsächlich »die Praktiken des 
ästhetischen Denkens [...] weder algorithmisier- noch programmierbar« seien aufgrund 
ihrer »Unrechenbarkeiten«, so heißt es im Manifest der künstlerischen Forschung von Silvia 
Henke u.a. (2020).' Intelligente Programme aus dem Bereich des Machine Learnings, die 
Beethovens unvollendete zehnte Sinfonie mit hoher Qualität weiter komponieren, lite- 
rarische Gedichte oder neue expressionistische Gemälde produzieren, scheinen jedoch 
grundsätzlich das Gegenteil zu beweisen. Aber erschafft diese sogenannte KI-Kreativität 
(artificial creativity) wirklich neue Kunstwerke, also »Neues< im Sinne des »Unerhörten« (ein 
Begriff von Goethe), was die traditionellen ästhetischen Kategorien sprengen oder we- 
nigstens überschreiten würde? Oder wird dabei lediglich Kanonisches (wie Beethovens 
9. Sinfonie) re-produziert oder imitiert? Und kann künstlicher Intelligenz überhaupt die 
Autorschaft für einen Text zugeschrieben werden?” 

Im Fokus dieses Beitrags stehen die Theoretisierung, Positionierung und Ästheti- 
sierung einer algorithmischen Praxis im Verhältnis zur Autorschaftskonzeption und 
paratextuellen Rahmung von künstlerischen und literarischen Produktionen im digita- 
len Zeitalter - insbesondere im Bereich einer sogenannten ästhetischen KI’, über deren 
Autorschafts-, Originalitäts- und Kreativitätsansprüche in diesem Zusammenhang 
kontrovers diskutiert wird.* 


1 Henke, S., Mersch, D., Meulen, N. v. d., Strässle, T., Wiesle, J. (Hg.) (2020): Manifest der Künstleri- 
schen Forschung. Eine Verteidigung gegen ihre Verfechter, Zürich. 

2 Vgl. Espen Aarseth’s Statement in seinem Buch Cybertext. Perspectives on Erdogic Literature, dass »ei- 
nem Computerprogramm nicht die Autorschaft für einen Text zugeschrieben werden kann« (vgl. 
E. Aarseth (1997): Cybertext. Perspectives on Erdogic Literature. Baltimore, S. 51). 

3 Begriff von Bajohr, H. (2021): Algorithmische Einfühlung. Über zwei Paradigmen digitaler gene- 
rativer Literatur und die Notwendigkeit einer Kritik ästhetischer KI. In: Sprache im technischen 
Zeitalter 59 (4), S. 471-497. 

4 Wo fängt das Originäre von Kunst durch Kl an -beim erzeugten Bild, der genialen oder inkommen- 
surablen Idee dahinter oder beim Code bzw. Algorithmus, der diesem zugrunde liegt? Vgl. zum 
Verhältnis von Original und Reproduktion im Zeitalter neuer digitaler Technologien auch den Bei- 
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In der »starke[n] Überschneidung von künstlerischer, technischer und theoretisch- 
diskursiver Praxis«° verhandeln die Verfahren generativer Kunst und Literatur häufig die 
eigene digitale Formierung® anhand der dynamischen Konstellation von drei kommu- 
nikativen und theoretisch-reflexiven Bezugspunkten: Algorithmizitat’, Autorschaft und 
Paratext. Ihre Relationalitat méchte der vorliegende Beitrag nachfolgend an einigen Bei- 
spielen aus den Bereichen der generativen Kunst sowie der generativen Literatur be- 
leuchten. 

Auffallig und diskussionswiirdig gestalten sich dabei zwei bedeutungsstiftende 
Verfahren in Paratexten 1. die performative Verhandlung von Autorschaft und Co-Autor- 
schaft mit Maschinen als affektive Diskursivierungspraxis einer möglichen Erkenntnis- 
und Handlungsfahigkeit und Subjektivierung von Maschinen und 2. die ästhetisch- 
theoretische Fokussierung auf die Algorithmizitat, also die Vorstrukturierung durch 
zugrundeliegende Algorithmen, Codes oder maschinelle Prozesse. 

In diesem Beitrag wird der Versuch unternommen, das epistemologische Potenti- 
al des Algorithmizitatsbegriffs auch auf computergenerierte Kiinste und Literatur (ins- 
besondere durch KI) anzuwenden. Dabei werden die gleichermaßen theoretisierenden 
wie auch performativen Funktionen von Paratexten analysiert, die die algorithmischen 
künstlerischen Praktiken diskursivieren und kommentierend begleiten. Die Verhand- 
lung von Autorschaft zwischen Mensch(en) und Maschinen) verbleibt in den begleiten- 
den Kommentaren eher im Bereich des Performativen, wie im Folgenden ausgeführt 
wird, und der ästhetische Fokus der dargestellten digitalen künstlerischen und litera- 
rischen Experimente verlagert sich auf die zugrundeliegenden Algorithmen und ma- 
schinellen Codes, nicht auf den damit generierten Output. Denn aufgrund von zuneh- 


trag von D. Stevanovic und auch die Position von A. de Vries im vorliegenden Band. Die Frage der 
Autorschaft wird traditionell in den Geistes- und Kulturwissenschaften verhandelt. Bei künstleri- 
schen Produktionen, die durch KI generiert werden, stehen Fragen nach den Grenzen einer (nicht- 
menschlichen, kollektiven und kollaborativen) Autorschaft und des>Werks«an, die eine längst ge- 
führte Diskussion neu entflammen lassen (Foucault 1988, Barthes 2000, Jannidis u.a. 1999). 

5 Vgl. Bajohr, H., Gilbert, A. (2021): Platzhalter der Zukunft: Digitale Literatur II (20012021). In: Dies. 
(Hg.): Digitale Literatur Il. In: TEXT+KRITIK. Zeitschrift für Literatur, Sonderband, S. 15. 

6 Zu Begriff und Konzept einer digitalen Literatur vgl. vor allem Bajohr/Gilbert: Platzhalter der Zu- 
kunft, S. 7-21. Der weit gefasste Begriff der »digitalen Literatur, der als Gegenstand theoretisch 
alle Literatur im Bereich des Digitalen miteinschließe, meint nach Bajohr und Gilbert auch die Re- 
flexion von »Grundbedingungen heutiger Literaturproduktion und -rezeption« (ebd., S.10.). Die 
einschlägige Übersicht über digitale Literatur von Bajohr und Gilbert unterscheidet drei Felder: 
1. das »digitale Inhaltsparadigma,, 2. das »digitalsoziologische bzw. »Plattform-Paradigma« und 3. 
das »digitalontologische Paradigma«, den bewussten Einsatz von Computern, Codes, Algorithmen 
sowie der automatisierten Verarbeitung von Textkorpora als Schreibmethode« (vgl. die Einleitung 
von Bajohr/Gilbert: Platzhalter der Zukunft.) Unter dem dritten Aspekt lassen sich zugleich Fragen 
des methodischen Zugangs zu digitaler Literatur diskutieren. Als historische »Vorgänger« der digi- 
talen Literatur identifizieren Bajohr und Gilbert Formen und Gattungen der Internet-, Hyper- und 
Netzliteratur, die sich aufgrund des Organisationsprinzips des Webs herausbildeten. Inzwischen 
werden diese Formen zunehmend von Twitter-, Insta- oder aber auch Code-Literatur abgelöst. 

7 Vgl. die aktuelle Diskussion um den Algorithmizitätsbegriff auf der Dhd-Konferenz von 2023: 
https://dhtheorien.hypotheses.org/1400 (Begriffsanalyse und Plädoyer für den Begriff von Gei- 
ger u.a., 14.05.2023), https://dhtheorien.hypotheses.org/1316 (Kritik am Begriff von Burkhardt, 
14.05.2023). 
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mend opaken maschinellen Verarbeitungsprozessen und der schwierigen bis mangeln- 
den hermeneutischen Erklärbarkeit ihres Outputs werden Paratexte zu einem wichtigen 
konstitutiven Element, insbesondere der durch KI generierten Kunst und Literatur. Da- 
bei unterliegen Paratexte nicht zuletzt den ökonomischen Zwecken des Literatur- und 
Kunstmarkts, den verschiedenen Teilöffentlichkeiten und ihren Diskursivierungsprak- 
tiken. Im Folgenden geht es also speziell um generative, künstlich generierte Produktio- 
nen von Kunst und Literatur, die einem »digitalontologischen Paradigma« folgen. 

Im vorliegenden Beitrag werden die bedeutungsstiftenden und -generierenden Ver- 
fahren bei generativer Kunst und Literatur sowohl auf einer performativen als auch auf 
einer medialen und materialen Ebene beschrieben.* Zu diesem Zweck wird im zwei- 
ten Teil des Beitrags das Ergebnis einer eigens hierfür generierten Kunstballade vor- 
gestellt, um die Auswirkungen von maschinellen Verarbeitungsprozessen auf die Pro- 
duktions- und Rezeptionsbedingungen generativer Literatur durch ChatGPT (GPT-3.5) 
in den Blick zu nehmen und zu erläutern. In diesem Zusammenhang geht es auch um 
die Frage, mit welchen (literatur)wissenschaftlichen Methoden den digitalen Textreprä- 
sentationen und -gegenständen wie generativen Erzählungen, Romanen und Gedichten 
durch KI überhaupt noch beizukommen ist. 


Algorithmizität als kulturelle Denkweise 


Algorithmizität meint in diesem Zusammenhang eine durch Algorithmen und maschi- 
nelle Prozesse vorgeprägte kulturelle Denkweise, die sich inzwischen auch im nicht- 
oder postdigitalen Bereich wiederfinden lässt. Der Begriff wird von Felix Stalder wie 
folgt definiert: »Algorithmizität bezeichnet jene Aspekte der kulturellen Prozesse, die 
von Maschinen (vor-)geordnet werden«.? Als »kulturelle Prozesse« meint Stalder ins- 
besondere die Ordnung von Informationen und Wissen unter der Vorstrukturierung 
durch Algorithmen, wie z.B. bei Suchmaschinen im Internet, dienach dem Prinzip einer 
algorithmisch vorgegebenen Komplexitätsreduktion arbeiten. Gabriele Gramelsberger 
macht beispielsweise deutlich, dass die Ursprünge der Algorithmizität in der Philo- 
sophie liegen. Ein Algorithmus meint im Allgemeinen eine bestimmte Abfolge von 
regelgeleitetem Handeln bzw. Operieren. Was beispielsweise (menschliche) Kreativität 
laut Sybille Krämer gegenüber maschinellen Verarbeitungsprozessen auszeichnete, sei 
im Übrigen gerade das Potential der Missachtung von (bekannten) Regeln: 


Die Grenzen der Formalisierbarkeit sind die Grenzen des mechanisch verfahrenden, 
phantasielosen Verstandes. Die Auszeichnung unserer Vernunft liegt nicht nur dar- 


8 Damit folge ich dem Ansatz der Critical Code Studies (nach M. Marino (2020): Critical Code Studies. 
Cambridge: MIT Press). 

9 Stalder, F. (2021): Grundformen der Digitalität. Onlinebeitrag auf agora42. https://agora42.de/gr 
undformen-der-digitalitaet-felix-stalder/ (Zugriff: 13.07.2023). Vgl. auch Stalder, F. (2016): Kultur 
der Digitalität. Berlin. 

10 Vgl. Gramelsberger, G. (2022): Schlaglichter. Algorithmizität. In: Feministische Studien 40 (2), 
S. 227-228. https://doi.org/10.1515/fs-2022-0033 (zuletzt aufgerufen am 12.07.2023) und Gramels- 
berger, G. (2023): Philosophie des Digitalen zur Einführung, Hamburg. 
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in, einer Regel zu folgen, sondern auch darin, eine Regel gegebenenfalls außer Kraft 
setzen zu können. Ohne diese Fähigkeit zur Außerkraftsetzung könnten die Bedin- 
gungen, die erfüllt sein müssen, damit wir formalisierte Systeme aufbauen können, 
überhaupt nicht erfüllt werden.” 


»Kreativität< und »Phantasie< (oder im älteren Sprachgebrauch: »Einbildungskraft als 
»die« differentia zwischen Mensch und Maschine scheinen in der artificial creativity prin- 
zipiell ersetzbar. ” 


Generative Kunst: Unüberwacht von Anadol 
und das Künstlerkollektiv Obvious 


KI als »Werkzeug«: Performative Autorschaft bei Refik Anadol (Unsupervised) 


Für seine Ausstellung Unsupervised nutzte der Künstler Refik Anadol die Metadaten 
des Museum of Modern Arts (Informationen zu Werken, Autor:innen, Ausstellungen, 
Besucherzahlen etc.) der letzten 200 Jahre, um daraus unter Anwendung von intelligen- 
ten Algorithmen des Machine Learnings kontinuierlich sich verändernde künstlerische 
Arbeiten zu kreieren. Zwischen »postdigitaler Architektur« von alternativ gebauten Rea- 
litäten, dreidimensionalen Datenskulpturen und audiovisuellen Live-Performances, die 
sich an der Schnittstelle zwischen Kunst, Wissenschaft und Technologie bewegen, lässt 
Anadol diese Datenmengen in Visualisierungen Gestalt und Bewegung annehmen.” 
Seine dynamischen, sich stetig wandelnden und schwer zu fotografierenden Visua- 
lisierungen haben eine eigentümlich fremd erscheinende Ästhetik. Hier scheint der 
Künstler die KI noch zu beherrschen, indem er diese als ein technisches Hilfswerkzeug 
dafür nutzt, um seine Kreativität zu unterstützen. 

Seine leitende »forschende< Frage, die auf seiner Homepage paratextähnlich seine 
künstlerischen Arbeiten rahmt, lautet demgegenüber aber, was es heißt, im Zeitalter ma- 
schineller Intelligenz Mensch zu sein. Er erforscht, wie sich Wahrnehmung und Erfah- 
rung von Zeit und Raum verändern, jetzt, da die Maschinen unseren Alltag beherrschen: 


Anadol’s body of work addresses the challenges, and the possibilities, that ubiquitous 
computing has imposed on humanity, and what it means to be a human in the age 
of Al. He explores how the perception and experience of time and space are radically 
changing now that machines dominate our everyday lives.'* 


11 Vgl. Krämer, S. (1988): Symbolische Maschinen. Die Idee der Formalisierung in geschichtlichem 
Abriß, Darmstadt, S. 81. 

12 Ähnlich äußert sich, aber in die Richtung einer Kritik, Dieter Mersch (2020), der in (Un)creati- 
ve artificial intelligence. Zur Kritik »künstlicher Kunst« (http://dx.doi.org/10.13140/RG.2.2.20353.0752 
9, 30.10.2023) den Maschinen eine Kreativität im Sinne von Einbildungskraft, >phantasia<, Inspira- 
tion und Intuition abspricht. 

13 Vgl. https://refikanadol.com/information/ 

14 https://refikanadol.com/information/ (letzter Zugriff am 06.07.2023) 
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Autorschaft wird nach neueren Modellen des Paratextkonzeptes im Anschluss an Ge- 
nette insbesondere durch das begleitende paratextuelle »Beiwerk« der Künste und 
Literatur, wie in Form von Kommentaren und Metakommentaren, Essays, Tweets, 
Blogs, Interviews, Posts, Tagebüchern, Websites oder Museums- und Verlagswerbung 
o.ä. (mit-)konstituiert und inszeniert. Diese Paratexte, die das Kunstwerk begleiten, 
haben eine rezeptionssteuernde Funktion und sichern im literarischen oder künstle- 
rischen Feld die »performative Positionierung der Autorschaft« in der Konkurrenz um 
Aufmerksamkeit, wie in den Texten des Bands von Gerstenbräun-Krug und Reinhard 
von 2018” dargestellt wird: 


Als Forum kultureller Praktiken der Distinktion und Uberbietung" wie auch der (me- 
dialen) Provokation dienen die Paratexte [..]- im Ringen um Aufmerksamkeit und 
symbolisches Kapital — auch der eigenen Positionierung und Etablierung im literari- 
schen Feld, d.h. der Etablierung des Werks sowie der Verleger-, Herausgeber- und Au- 
torschaft.'° 


Die auf die Bedingungen des Literatur- und Kunstmarktes ausgerichteten paratextuel- 
len Praktiken orientieren sich dabei gleichermaßen an den Prinzipien der »Ökonomie 
und Konkurrenz«: 


Ein solch spezifisch moderner Agon [...] wird in nicht unwesentlichen Teilen über Me- 
ta-, Sekundär- und Paratexte ausgetragen [...].” 


»Halluzinationen« und Mystifikationen von künstlerischen KNNs"® 


Im Fall von Refik Anadols Ausstellung soll das unüberwachte Lernen selbst die Cluster 
durch Merkmale finden, die überraschende und unvorhersehbare historische Zusam- 
menhänge repräsentieren sollen. Man könne damit sozusagen in die »Löcher der Ge- 
schichte< (holes of history) schauen, so lautet der paratextuelle Kommentar im Magazine 
auf der Website des MoMA.” Anadol würde auf diese Weise die Erinnerungen mit der 
Zukunft verbinden und das Unsichtbare sichtbar machen (»I am trying to find ways to 
connect memories with the future,< the artist has said, »and to make the invisible visi- 
ble.<°) Er reimaginiere die Geschichte der modernen Kunst, ihrer Institutionen und ih- 


15 Gerstenbraun-Krug, M., Reinhard, N. (Hg.) (2018): Paratextuelle Politik und Praxis. Interdependen- 
zen und Autorschaft, Wien. 

16 Reinhard: Paratextuelle Politik und Praxis, S. 11. 

17 Beide Zitate von Wegmann, T. (2012): Der Dichter als »Letternkrämer«? Zur Funktion von Paratex- 
ten für die Organisation von Aufmerksamkeit und Distinktion im literarischen Feld . In: Das acht- 
zehnte Jahrhundert, Jg. 36, H. 2, S. 238-249, hier S. 240. »Die Genese von Werk und Autorschaft 
kann parergonal, paratextuell (wie metatextuell) organisiert werden, um so Aufmerksamkeiten 
zu lenken und die öffentliche Wahrnehmung von Texten und Autoren gezielt zu steuern und da- 
mitschließlich Werk und Autorschaft wesenhaft zu konstituieren« (Reinhard: Paratextuelle Politik 
und Praxis, S. 13). 

18 = Künstliche Neuronale Netze 

19 _ https://www.moma.org/calendar/exhibitions/5535 (zuletzt aufgerufen am 13.07.2023) 

20  https://www.moma.org/calendar/exhibitions/5535 (zuletzt aufgerufen am 13.07.2023) 
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rer Kontingenzen anhand sämtlicher Metadaten des MoMA. Die dahinterstehende Frage 
lautet auf der Website des MoMA: »What could exist, what might exist, but doesn't, in the 
archive?«” 

Der Kommentar spielt damit offensichtlich auf die Möglichkeiten von neuen Er- 
kenntnissen durch (unüberwachte) Cluster-Verfahren von KI-Systemen an, also durch 
das Auffinden neuer Ähnlichkeiten, Verbindungen und Zusammenhänge über ganz 
andere Gruppenzuordnungen - wie bei den jedoch dann schwer hermeneutisch zu 
interpretierenden Visualisierungen der holes of history. Die in Anadols Arbeiten na- 
hegelegten (explorativen) >Halluzinationen< und »Träume< ungesehener (musealer) 
geschichtlicher Zusammenhänge, wie im vollen Ausstellungstitel »Unsupervised - Ma- 
chine Halluzinations - MoMA - Fluid Dreams« angedeutet wird - meinen anscheinend 
aber keine Fehler oder frei Erfundenes von KNNs, sondern werden auf diese Weise 
als ungeahnte Möglichkeiten der Wissensgenerierung durch Maschinen mystifiziert. 
Zugleich werden andererseits aber sämtliche Metadaten des MoMA in seinen künst- 
lerischen Produktionen verwendet, die auf Surveillance- und Überwachungspraktiken 
(wie Besucherzahlen etc.) verweisen.” So entstehen aus den »non-referential images« 
beziehungsweise der »abstract and non-representational art«, die Anadol auf einem 
überdimensionalen »twenty-four-foot square carbon-intensive screensaver« in immer 
neuen, fluiden Bilderströmen erscheinen lässt, eben nicht neue Erkenntnispraktiken, 
sondern eigentlich Zeugnisse von Überwachungstechniken, die den Titel der Namens- 
gebung der Ausstellung »Unüberwacht« in einen äußerst prekären Entstehungskontext 
stellen.” 

Die zumeist auf die ökonomischen Bedingungen von populärer Beachtungsmes- 
sung” ausgerichteten Paratexte, insbesondere auf den Kunstmarkt und seine musealen 
(Teil-)Offentlichkeiten,”> wie beispielsweise auf Instagram,” die Anadols Ausstellung 
begleiten und seine Autorschaft konstituieren, sind damit eher weniger auf progressive 
soziale oder transkulturelle Bedeutungen generierende künstlerische Praktiken oder auf 
neue Möglichkeitsräume für Subjektivität ausgerichtet, wie sie zunächst suggerieren, 


21 https://www.moma.org/magazine/articles/839 (zuletzt aufgerufen am 13.07.2023) 

22 Vgl. R.H. Lossin: Refik Anadol’s »Unsupervised« (2023) (https: //www.e-flux.com/criticism/527236/ 
refik-anadol-s-unsupervised, zuletzt aufgerufen am 30.06.2023) 

23 Vgl. Lossin: Refik Anadol’s »Unsupervised« (alle Zitate). Dieser Kontext erscheint umso prekärer, 
als es sich bei der Al Firma, die Anadol geholfen habe, seine sdreams« zu kreiern, wohl um diesel- 
be Firma (Nvidia) handeln soll, die auch das Department of Defense ausgewählt habe (vgl. ebd.). 
(Nvidia ist wiederum auch eine der größten Firmen für PC-Grafikkarten.) Es gibt noch einen an- 
deren Aspekt bei der Verwendung von Metadaten: Die Allverfügbarkeit von Datensätzen lassen 
einzelne Werke, Autor:innen, Institutionen und anderen Informationen undifferenzierbar sowie 
private und öffentliche Unterschiede unkenntlich werden. 

24  Vgl. dazu Werber, N. (2021): »Hohe« und»populare« Literatur. Transformation und Disruption einer 
Unterscheidung. In: Jahrbuch der deutschen Schiller-Gesellschaft, Jg. 65, S. 465-479. 

25 Vgl. Eickelmann, J. (2023): Vom Museum zum kuratorischen Apparat. Die Algorithmisierung und 
Plattformisierung von Deutungsmacht angesichts der digitalen Entgrenzung von Museumsöffent- 
lichkeiten. In: Bedorf, T. & Risthaus, P. (Hg.): Digitale Hermeneutik: Maschinen, Verfahren, Sinn. 
Hagen: Hagen University Press. 

26 Ben Davis, »An Extremely Intelligent Lava Lamp,« Artnet (January 23, 2023), https://news.artnet. 
com/art-world/refik-anadol-unsupervised-moma-2242329. 
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sondern verbleiben im Performativen einer künstlerischen Praxis, die ihre Algorithmi- 
zität (in der undurchsichtigen Vermengung von Daten und Metadaten) in übergroßen 
Visualisierungen zur Schau stellt. 


Ina critical review for Artnet, Ben Davis astutely observes that one ofthe many prob- 
lems with this particular Instagram background is that its use of MoMA's collection as 
a data set implies that>art history is just a bunch of random visual tics to be permuted, 
rather than an archive of symbol-making practices with social meanings.” 


Eine Reorganisation von Wahrnehmungsweisen innerhalb eines durch künstlerische 
Praktiken in Gang gesetzten ästhetischen Reflexionsprozesses, De- und Rekontex- 
tualisierungen von Wissens- und Diskurszusammenhängen oder Erweiterungen des 
westlichen Kanons (im musealen Möglichkeitsraum) bleiben damit weiter nur »Traum« 
und »Halluzination«. Die Amalgamierung von Kanongeschichte mit Surveillance-The- 
matik lässt überdies die holes of history zu einer musealen Aufführung von nicht nur 
bedeutungslosen, sondern eher »schwarzen Löchern der Geschichte mutieren. 


»Symbiose« von Kunst und Wissenschaft durch KI-Kunst? 
Neue Zukunftsperspektiven im Manifest des Kollektivs Obvious 


Anders werden im Manifest von Obvious die künstlerischen Praktiken der KI program- 
matisch als wegweisend für eine zukünftige alternative Wissensgenerierung im Digita- 
len für den (eigenen) künstlerischen und kulturellen Selbstfindungsprozess. In der Kolla- 
boration zwischen Mensch und Maschine begibt sich das Kollektiv Obvious auf die Suche 
nach einer neuen Ästhetik und einem tieferen konzeptuellen Rahmen: 


We also want to promote a new level of collaboration between an artist and the one 
of the machine are joined in the search of a new type of aesthetic and a deeper con- 
ceptual framework.”® 


Die Verschränkung, oder vielmehr noch, die »Symbiose<, von Kunst und Wissenschaft 
soll Wissen und Zukunftsperspektive in die Welt bringen - wie das Manifest von Obvious 
expliziert. 


By staying up to date with the latest research and finding artistic applications to the 
tools being discovered, we bring knowledge and future perspective to the world, by 
reducing the gap between research and applications.?? 


Dieser politische und symbolische Bedeutungen generierende Paratext beinhaltet das 
Versprechen einer zukünftigen Transformation und Erneuerung von (ästhetischen und 


27 Vgl. Lossin: Refik Anadol’s »Unsupervised«. 

28 Manifest von Obvious (2020): Manifesto. Our artistic approach. In: Dies.: Artificial Intelligence for 
Art, S. 3. http://obvious-art.com/wp-content/uploads/2020/04/MANIFESTO-V2.pdf (zuletzt aufge- 
rufen am 13.07.2023) 

29 Obvious: Manifesto, S. 3. 
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sozialen) Bedeutungen und Wissenszusammenhängen durch eine Minimierungvon Un- 
terschieden zwischen künstlerischen und wissenschaftlichen Auffassungsperspektiven, 
welches zum eigentlichen Ziel des Kollektivs erklärt wird. Mit Blick auf die Einflüsse frü- 
herer wissenschaftlicher Erkenntnisse auf die Künste — wie beispielsweise die Fotogra- 
fie, die den Zugang auf die visuelle Gestaltung vervielfachte - adressiert und imaginiert 
das Manifest die neuen möglichen erkenntnistheoretischen Potentiale im Bereich von 
digitaler Kunst, indem »verschiedene Arten von Kunst durch den Blickwinkel eines Sets 
von Algorithmen erforscht werden«.’° Die künstlerischen Praktiken als künstlerische An- 
wendungen für die neuen Tools avancieren zu wissenschaftlichen Verfahren unter der 
Perspektive ihrer Algorithmizität, also der Perspektive der Kunst unter dem Blickwinkel 
von Algorithmen: 


Science and art are always complementary. We can observe examples of this symbiosis 
everywhere from the works on geometry that helped artists building perspective in 
their work and the chemical creation of new types of pigments that allowed declining 
colors while keeping their intensity, to the creation of the camera that multiplied the 
facility of access to visual creation. We encourage this dynamic by exploring different 
types of art through the angle of a set of algorithms, and help reconcile the old and the 
new by and reducing the differences in perspectives of apprehension of the issue." 


Die anvisierte Transformation wird zwar nicht weiter konkretisiert, jedoch der generati- 
ven Kunst (insbesondere durch die Verwendung des GAN-Algorithmus””) transgressive 
und die Kunst überschreitende Potentiale in der Verschwisterung mit der Wissenschaft 
zugeschrieben. Der Paratext bekommt hier in Form eines Manifests über eine rahmende, 
explikative und begleitende Funktion der künstlichen künstlerischen Praxis (wie beim 
Portrait Edmond de Belamy, 2018) hinaus einen eigenen und sogar den kiinstlerischen Pro- 
zess noch überlagernden Wert, der die imaginären Vorstellungen hin zu alternativen Di- 
mensionen des Epistemischen und Sozialen öffnen will. Durch das Kalkül der Unent- 
schiedenheit und die Hybriditat zwischen Fiktion und Realität schließt das Manifest an 
eine »reale« Gegenwartigkeit an, die eine gemeinsame Ebene und gemeinsame Welt mit 
der/dem Rezipient:in hypothetisch unterstellt. Die hybride und »durchlassige< Form des 
»Manifests« mit »Schwellenfunktion<® vereint selbst die beiden Register - künstlerisches 
Portrait und theoretisierenden Kommentar - zu einer »Symbiose« für künstlerische und 
wissenschaftliche Theoriebildung.** Denn als »Zone der Unentschiedenheit«° nach Ge- 
nette im Anschluss an Derridas Parergon wenden Paratexte umkehrbare Fiktionalisie- 


30 Vgl. Obvious: Manifesto, S. 3. 

31 Obvious: Manifesto, S. 3. 

32 Das Portrait Edmond de Belamy (2018) ist>signiert« mit dem GAN-Algorithmus, der sich in der rech- 
ten unteren Ecke des Protraits befindet (vgl. Obvious (2020): La famille de Belamy. In: Dies.: Arti- 
ficial Intelligence for Art, S. 4). 

33 Vgl. Reinhard: Paratextuelle Politik und Praxis, S. 22. 

34 Handisches »Werk« des Künstlers und helfende »Hand« der Maschine ergreifen einander auf einer 
neuen Ebene der Kollaboration zwischen Künstler und seinem Tool, auf der Suche nach einer neuen 
Art von Ästhetik: (Obvious: Manifest, S. 3). 

35 Vgl. Reinhard: Paratextuelle Politik und Praxis, S. 13. 
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rungspraktiken und semantische Grenzverschiebungen, auch zwischen Performativität 
und Transgressivität, an, die den Text immer wieder »verändern<und »neu konstituieren« 
können: 


Paratexte können in ihrer Beschaffenheit als Zone der Unentschiedenheit aktiv als 
eine solche genutzt werden; z.B. durch (meist provokative) Verursachung systema- 
tischer Störungen der (typographisch bzw. gestalterisch realisierten) Unterscheidung 
und Hierarchisierung von Text und Paratext. Mittels aktiv inszenierter Grenzverschie- 
bungen - d.h. durch den Wechsel performativer Rahmungen und damit erzeugter iro- 
nischer Effekte- kann der Text selbst verändert bzw. je neu konstituiert werden. Die 
parergonale/paratextuelle (wie auch die metatextuelle) Inszenierung kann somit im 
Sinne einer Politik und Praxis die Genese von Autorschaft und Werk beeinflussen.” 


Posthumanistische Autorschaft von (Meta-)Programmen am Beispiel 
des Portraits Edmond de Belamy 


Eduardo Navas, Autor der Remix Theory (2012) und der Ko-Autor von The Routledge Com- 
panion to Remix Studies (2015) forscht zur Autorschaft und Kreativität von Metaprogram- 
men.*” Den Einsatz des maschinellen Lernens von Künstler:innen für die Produktion von 
Werken bewertet er als Delegation der kreativen Arbeit vom Menschen an die Automa- 
tisierung. Remix als Rekombinationsprinzip sei der menschlichen Produktion seit jeher 
zu eigen. Navas sieht in den Arbeiten des Kollektivs Obvious und den Kompositionen von 
David Cope die Forderung, Fragen der Autorschaft als individuelle und kollektive Praxis 
im Sinne einer Metakreativität neu zu überdenken. Das berühmte Portrait von Edmond 
De Belamy*® (Tintenstrahldruck auf Leinwand, offiziell das erste KI-generierte Gemälde), 
das Teil einer Serie einer fiktiven Familie Belamy ist, wurde mit dem GAN-Algorithmus 
(Generative Adversarial Network)” erstellt, der kreative Prozesse entwickelt, auf der Grund- 
lage von einer großen Anzahl von Bildern (15.000 Portraits zw. 14.-20. Jh.). Die französi- 
sche Künstlergruppe eigne sich laut Navas bewusst einen Code an, der an Aneignungs- 
strategien der Avantgarden in der ersten Hälfte des 20. Jahrhunderts und der Konzept- 
künstler aus der zweiten Hälfte ankniipfe.*° Das maschinelle Lernen an sich funktioniere 


36 Reinhard: Paratextuelle Politik und Praxis, S. 13. 

37 Vgl. zum folgenden Abschnitt Navas, E. (2021): Machine Learning and Remix. Self-Training Selec- 
tivity in Digital Art Practice. In: Gartmann, T., Schauble, M. (Hg.): Studies in the Arts. Neue Per- 
spektiven auf Forschung über, in und durch Kunst und Design, Bielefeld, S. 191-204. 

38 Vgl. Navas: Machine Learning and Remix, S.197f. Es soll 2018 für insgesamt 432.500 US-Dollar ver- 
steigert worden sein. 

39 Die GANs bestehen aus zwei neuronalen Netzen, einem »Generator« und seinem Gegenspieler, 
dem »Discriminator«. Das erste Netz trainiert anhand von Trainingsdaten so lange, bis das Ergeb- 
nis an die vorgegebene Verteilung und die Werte der Trainingsdaten (möglichst) angepasst, aber 
nicht identisch ist. Der »Discriminator« bewertet die Ergebnisse des Generators auf der Basis von 
Unterschieden, die er zwischen den Ergebnissen und den Ist-Werten der Trainingsdaten erkennt. 
Erst wenn der Discriminator (fast) keine Unterschiede mehr erkennt, ist das Training abgeschlos- 
sen. 

40 Vgl. Navas: Machine Learning and Remix, S.198. 
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ebenfalls wie ein systematischer Aneignungsprozess. Nur dass in diesem Fall das Kollek- 
tiv nicht mehr nur aus Menschen besteht, sondern ebenfalls aus neuronalen Netzen und 
Formen der künstlichen Intelligenz, die uns wiederum neue Kombinationsmöglichkei- 
ten und Ansätze aufzeigen können - wie im Fall von AlphaGo, einem intelligenten und 
selbstlernenden Algorithmus, der im März 2016 den Go-Weltmeister Lee Sedol 4:1 be- 
siegte. Das Konzept war von einem Informatiker, Demis Hassabis, dem Informatiker 
hinter Deep Mind” (übrigens war dies das 1. kommerzielle KI-Programm von IBM An- 
fang der 1990er). Die Idee war die, ein Metaprogramm zu schreiben, das Programme 
zum Spielen von Go selbst schreiben kann.** Navas bezeichnet dies als Manifestation 
von Metakreativität*, einem Prozess im Zeitalter des Posthumanismus. 

Die Appropriation, also die Aneignung von bereits Vorhandenem, in dem Sinne, dass 
Obvious bei seinem Projekt der Portraits einen bereits vorhandenen Code nutzte, nämlich 
von Robbie Barrat, der selbst laut Navas aber auch auf bereits existierende Algorithmen 
zurückgreife), lässt nach dem Status von Urheberschaft und Plagiat fragen, wobei das 
populäre Konzept der GANs bereits digitale Readymades, Programmierbibliotheken, die 
spezifische Projekte wiederverwerten können, darstelle. In diesem Kontext definiert Na- 
vas »Metakreativität« als 


[...] eine kulturelle Variable, die entsteht, wenn der kreative Prozess über die menschli- 
che Produktion hinausgeht und nicht-menschliche Systeme einbezieht. [...] Vor allem 
aber verweist Metakreativität als abstraktes Konzept auf die nächste kulturelle Stufe 
der posthumanistischen Produktion.** 


Rekombinationen entstehen, wenn ein Programm viele Iterationen mit Rückkopplungs- 
schleifen durchläuft, um aus Datenbanken den gewünschten Output, zum Beispiel im 
Bereich Musik die gewünschten Kompositionen zu erhalten, die nicht mehr von der 
Musik von Menschen zu unterscheiden sind - wie bei dem intelligenten Computer- 
programm »Experiments in Musical Intelligence (EMI)« aus den frühen 1980er Jahren 
des Komponisten David Cope, das ihm zunächst beim kreativen Komponieren helfen, 
später aber eigenständig komponieren sollte.” 


41 Vgl. Navas: Machine Learning and Remix, 5.198. 

42 Vgl. Navas: Machine Learning and Remix, 5.198. 

43 Es ist bemerkenswert, wie oft die Präposition »Meta« in diesen Zusammenhängen auftaucht und 
an Maschinen geknüpft wird, beispielsweise in Bezug auf die entgrenzenden und parallele Welten 
produzierenden Kapazitäten, was sich in Begriffen wie »Metaverse< bzw. Metaversum oder »Meta- 
kreativität< ausdrückt. Die griechische Vorsilbe »Meta< steht für eine höhere Ebene (der Reflexion) 
und lässt sich auch beim aus dem Altgriechischen stammenden zusammengesetzten Begriff»Me- 
thode: @meta<= über, darüber hinaus — und »hodos<= Weg) wiederfinden als»(Reflexion) über oder 
den (besten) Weg: oder Denkweise (way of thinking«, vgl. Verhoff, N. (2023): The Streets and the 
Methods of (Post)Pandemic Cities. In: DAmmando, A., Morawski, T., Velotti, S.: Urban Forms of 
Life. Per una critica delle forme di vita urbana, S. 158-175. 

44 Vgl. Navas: Machine Learning and Remix, S.199. Etwas widersprüchlich und offen bleibt in Na- 
vas Konzept, ob Metakreativität in kollektiver Autorschaft von menschlichen und nicht-mensch- 
lichen Produktionen entsteht oder eigentlich eher ein nahendes posthumanistisches Phänomen 
beschreibt. 

45 Vgl. Navas: Machine Learning and Remix, S. 200. 
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Navas bezieht sich auf Derridas paradoxes Konzept der Iteration, wenn das Mate- 
rial durch den Remix und die Rekombinationen des Computers wiederholt angeeignet 
und gesampelt wird, um dann als Abgeleitetes und quasi Neues - als eine Variante des 
Bekannten - wieder in die Kultur eingeführt zu werden. 

Durch die sich wiederholende Schleife von Elementen der Selektivität, der Aneig- 
nung und des Remixes sowie einer (selbst)steuernden Meta-Ebene könnte maschinelles 
Lernen in einem Metaloop, wie Navas es nennt, prinzipiell den Status des Werkzeugs 
überschreiten und selbst durch den Schlüsselfaktor der Differenz in der Wiederholung 
Bedeutungen generieren, die u.U. nicht mehr vollständig vom Menschen bestimmt wer- 
den - als eine Art universelles Kreativitatsprinzip.** 

Das »Neue« entsteht laut Navas auf der Basis von Differenz in der Iteration und durch 
die >universellen< Prinzipien der Kreativität: Selektivität, Aneignung und Remix. Pro- 
duktionen des »Unerhörten« als unerwarteter und unvorhersehbarer »Sprung: bei einem 
selbstlernenden Meta-Programm im Prozess von unendlichen Iterationen und dem kon- 
tinuierlichen Aneignen und Variieren sind laut Navas grundsätzlich möglich und denk- 
bar - dies bleibt aber zunächst ein sabstraktes Konzept«.*” 

In einer epistemologischen Dimension steht die Erkenntnisfähigkeit, in einer pra- 
xeologischen die Handlungsfähigkeit (außerdem die computersprachlichen Praktiken) 
der subjektivierten künstlichen Intelligenz im Zentrum der Debatten über artificial crea- 
tivity. Die Debatte über die Urheberschaft und Autorschaft der durch KI produzierten 
Künste verschiebt sich dabei in die Richtung von Maschinen, den zugrundeliegenden 
Codes und Algorithmen sowie ihren Programmierer:innen. 

In der konkreten Anwendung selbstlernender Algorithmen auf die Künste bedeutet 
dies aber noch in der Regel, dass es eher zu Reproduktionen von kanonischen Werken 
der Literatur, Kunst und Musik anhand von statistischen Verteilungen kommt. Denn die 
Korpora des institutionengebundenen westlichen Kanons dienen häufig (noch) als Da- 
tenbasis für das Training von KI basierten Systemen, die sich außerdem an traditionel- 
len ästhetischen, weil differenzfähigen Kategorien wie Stil, Gattung, Epoche oder Werk 
orientieren. Eine Konzentration auf das am häufigsten Beachtete (z.B. durch Web-Scra- 
ping**) läuft bei solchen künstlerischen Produktionen dabei jedoch Gefahr, hinter den 


46 Vgl. Navas: Machine Learning and Remix, S. 203f. 

47 Vgl. Navas: Machine Learning and Remix, S.199. Denkbar wäre das vielleicht beim unüberwachten 
Lernen, wenn das System selbst überraschende Clusterzentren findet und eigenständig als Para- 
meter wieder ins System eingibt. Was es lernt, kann es aber nur auf der Grundlage derjenigen Da- 
ten, mit dem man es »füttert«. Vgl. zur Weiterentwicklung der GANs durch die 2020 patentierten 
CANs von Ahmed Elgammal, einem Informatiker an der Rutgers University, die »Kunst generie- 
ren« und zwar in einem Sinne von »überraschender« Kreativität in die Richtung von »Verwirrung, 
Komplexität und semantische Ambiguität« Bajohr, H. (2021): Keine Experimente. Über künstleri- 
sche künstliche Intelligenz. In: Merkur 75 (864), S. 32-44, S. 37ff. (https://doi.org/10.21706/mr-75-5 
-32). Der »Discriminator« steuert hier eher die Abweichung von bekannten Stilen als ihre perfekte 
Nachahmung, schaffe damit also »selbstandig< neue Kunst (vgl. ebd., S. 38). Auch hier stellt sich 
die Frage, ob die KI tatsächlich überraschende Ergebnisse im Sinne des ästhetisch Neuen schafft — 
und nicht bloß Reproduktionen. Aus Sicht der Informatik ist eine sogenannte »starke KI: derzeit 
noch nicht realisierbar. 

48 »Das (Web-)Scraping [..] ist ein Verfahren, um automatisiert bereitgestellte (Web-)Inhalte 
zu verarbeiten und in eine maschinenlesbare Form zu überführen.« https://www.wiso.uni- 
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epistemologischen Ansprüchen an die vielleicht überraschenden und unvorhersehbaren 
Einsichten von durch Kl erzeugten Kunstproduktionen zurückzubleiben.* 


Generative Literatur: Nick Montfort, Hannes Bajohr und ein Chatbot 
(Humane) Meta-Autorschaft von generativer Literatur 


Ein Zweig der digitalen Literatur," worunter vielfältige Formen wie z.B. Cyber- und Hy- 
perfiction, Electronic Literature, konzeptuelle oder Code-Literatur vertreten sind,” ist 
die generative Literatur (auch generative poetry oder generative narratives), die durch die ge- 
nerativen Texte von grofsen Sprachmodellen wieder aktuell geworden ist. Bei der genera- 
tiven Literatur werden Texte nicht von einem menschlichen Autor geschrieben, sondern 
basieren auf konzeptuellen Modellen, algorithmischen Praktiken, Codes, Regelwissen, 
lexikalischen Eintragen, rhetorischen und poetologischen Regeln, deren Vorlaufer bis in 
die barocke Kombinationslyrik reichen sollen. Der Code ist hierbei schon der selbstaus- 
führende Text. Der Mensch erscheint in diesem Zusammenhang eher als Meta-Autor:in, 
die/der nur noch die Regeln eingibt. Der Unterschied zu einer/m traditionellen Autor:in 
ist, dass die/der Meta-Autor:in kommentiert, was Literatur für sie oder ihn ist und wie 
literarische Konzeptionen meta- und paratextuell beschrieben werden können.” Tex- 
te der generativen Literatur unterscheiden sich von Texten non-generativer Literatur, 


hamburg.de/forschung/forschungslabor/downloads/20200130-handreichung-web-scraping.pdf 
(zuletzt aufgerufen am 14.07.2023) 

49 Berechtigte KI-Kritik aus den Medien-, Kultur- und Gesellschaftswissenschaften betont immer 
wieder die Problematik von Bias-Effekten von race, gender und class von KI-Systemen, z.B. 
durch verzerrende Trainingsdaten, nicht repräsentative Datensamples (sog. WEIRD Samples) bzw. 
Datendiskriminierung. Vgl. zu den Bias-Effekten allgemein https://www.anti-bias.eu/biaseffek- 
te/biases-in-kuenstlicher-intelligenz/(zuletzt aufgerufen am 12.07.2023) und KI Zou, J., Schiebin- 
ger, L. (2018): Al Can Be Sexist and Racist- It’s Time to Make it Fair. In: Nature 559, S. 324-326. 

50 Die digitale Literatur versammelt alle möglichen, teilweise auch kurzlebigen, Spielarten unter ih- 
rem Namen, da die Technologien und die daraus entstehenden Fomen und Medien sich alle paar 
Jahre stark ändern. Es gebe also keinen state of the art< (Simanowski). Einen Überblick geben Si- 
manowski, R., Schäfer, J., Gendolla, P (Hg.) (2010): Reading Moving Letters. Digital Literature in 
Research and Teaching. A Handbook, Bielefeld. Vgl. auch Bajohr/Gilbert: Platzhalter der Zukunft. 

51 Vgl. Zimmermann, H. (2015): Autorschaft und digitale Literatur. Geschichte, Medienpraxis und 
Theoriebildung, Trier, S. 9ff. Vgl. dazu auch den Sammelband Code und Konzept (2016), herausge- 
geben von Hannes Bajohr, oder die algorithmischen Praktiken von Kenneth Goldsmith wie in Day 
(2003), dessen konzeptuelles Schreiben oder auch Uncreative Writing (2011, als Recyclen von Tex- 
ten) nach vorformulierten Regeln vollzogen wird. Sein Buch Day enthält beispielsweise die Kopie 
eines ganzen Tages aus der New York Times. Es soll nicht in erster Linie gelesen werden, denn sein 
ästhetischer Fokus liegt auf dem Konzept. Er hatte sich dafür ein juristisches Verfahren wegen des 
Copyrights bzw. Plagiats eingehandelt, das er aber mit dem Verweis auf den Kunstcharakter ge- 
wann. 

52 Vgl. Balpe, J. (2007): Principles and Processes of Generative Literature. Questions to Literature. 
In: Gendolla, P, Schafer, J. (Hg.): The Aesthetics of Net-Literature. Writing, Reading and Playing 
in Programmable Media, Bielefeld, S. 309-318. 
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in dem Sinne, dass sie normalerweise nicht rezipiert, werden (können), es sei denn, sie 
werden zu Vergleichs- oder Darstellungszwecken gedruckt oder gepostet. 


Generative Literature, defined as the production of continuously changing literary 
texts by means of a specific dictionary, some set of rules and the use of algorithms, 
is a very specific form of digital literature which is completely changing most of the 
concepts of classical literature. Texts being produced by a computer and not written 
by an author, [..] point to a specific way of reading particularly concerning all the 
aspects of the literary time. [...] | will try to present some of the characteristics of 
generative texts and their consequences for the conception of literature itself.” 


Zufallsgenerierte Texte von generativer Literatur haben nach Balpe eine Art von »Alep- 
se«,’* sie werden zwar bedeutungsäquivalent oder bedeutungsähnlich generiert, aber 
ohne die Einbettung in die chrono-logischen Zeitstrukturen von Erzählungen, wo Text- 
teile normalerweise in voraus- oder rückschauender Relation zum vorhergehenden auch 
nachfolgenden Teil der Erzählung stehen, irgendwo auf einer pfeil- oder vektorförmig 
verlaufenden Zeitlogik im Text.” Auch wenn ein Autor oder eine Autorin keine diegeti- 
sche Achse einbaue, anhand derer die Erzählung verlaufen würde, würden von den Rezi- 
pient:innen in einem Text Diegesis-Marker gesucht werden, wie Anfang und Ende einer 
Erzählung, sowie Sinnrelationen unter Begriffen oder zeitliche Strukturen im Text. Ge- 
nerative Literatur beweist geradezu die »Illusion von hermeneutischer Kontrolle«, wie 
Paul de Man es in Allegorien des Lesens (1987) beschrieben hat. Denn die Debatte über die 
Autor-Kontrolle sei hier gar nicht nötig, Diegese sei eher ein Konzept für die Rezeption. 
Hier führt das Beschäftigen und Experimentieren mit digitaler Literatur zu tieferen Ein- 
sichten in die narrativen Strukturen von traditionell autorgebundenen Texten. 


Generative Literatur als Exempel eines wissenschaftlichen Paradigmas 
(Nick Montfort: Megawatt) 


Insbesondere die Arbeiten des Literaten und Wissenschaftlers Nick Montfort lassen ein 
ästhetisches Übergewicht am theoretisierenden Konzept »hinter« seiner Literatur erken- 
nen. 

Die Kommentare Nick Montforts in einem Essay in Bezug auf Aarseth’s Statement, 
dass »einem Computerprogramm nicht die Autorschaft für einen Text zugeschrieben 
werden«” könne, positionieren laut Jasmin Meerhoff seine »techno-ästhetisch-ökono- 
mische Konstellation Autorschaft«°* (performativ) als eine Ko-Autorschaft mit der Ma- 
schine im Sinne von gemeinsamen Handlungsprozessen.”” 


53 Balpe: Principles and Processes of Generative Literature, S. 309ff. 

54 Balpe: Principles and Processes of Generative Literature, S. 312. 

55 Vgl. Balpe: Principles and Processes of Generative Literature, S. 312ff. 

56 Vgl. Balpe: Principles and Processes of Generative Literature, S. 312ff. 

57 Vgl. Aarseth: Cybertext, S. 51. 

58 Meerhoff, J. (2021): Verteilung und Zerstaubung. Zur Autorschaft computergestützer Literatur. In: 
Bajohr/Gilbert: Digitale Literatur II, S. 49-61, S. 49. 

59 Meerhoff schlägt vor, Montforts implizite Aussagen über die Autorschaft einer »electronic literary 
composition« als >literarische Verfahren: der Entwicklung und Anwendung »schlicht als Ko-Autor- 
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Der ästhetische Fokus wird im Vor- und Nachwort seines Romans Megawatt nicht 
mehr auf den kaum noch lesbaren Output gelegt, sondern auf den zugrundeliegenden 
Python-Code, was vor allem die Algorithmizität des Werks unterstreicht. 

Im Vorwort heißt es, der generative Roman Megawatt basiere auf den in Becketts Ro- 
man Watt enthaltenen (algorithmischen) Regelhaftigkeiten, die in sequenziellen Abfol- 
gen der Wörter in Becketts Text bereits enthalten seien. Diese sequenzielle Regelhaftig- 
keit von Textpassagen wurde von Montfort mit der Programmiersprache Python sozu- 
sagen (nach)programmiert und erweitert, indem er die Sequenzen von Watt um weitere 
Wörter (z.B. weitere Adjektive für »Empfindungen«, »Stimmen«) in Megawatt ergänzte. 

Entgegen Montforts Inszenierung einer Ko-Autorschaft könnte man mit Jean-Pierre 
Balpe®° argumentieren, dass hier eher eine Meta-Autorschaft vorliege, wenn der Mensch 
noch den Code, den Prompt oder die Regeln für den vom Programm generierten Text 
eingebe.“ 

Die ursprünglichen Sequenzen aus Watt wurden in Megawatt zusätzlich öfter wie- 
derholt als im Original: Im Programmcode von Kap. VII kann man lesen, dass drei der 
ursprünglichen »Empfindungen« aus Watt (ruhig:, »freis, »froh«) auf sechs in Megawatt 
erweitert (ruhig«, frei, froh«, »ganz«, gut, richtig) und bis zu siebenmal wiederholt 
wurden: »for iin range (6,0, -1)«. 

Für das achte Kapitel steht im Code »abschnitt (VIIIJ«.°* »Nur die ersten vier er- 
scheinen im Original« klärt der Kommentar im Code (hinter »##«) in Bezug auf die At- 
tribute für »Mr. Knotts äußere Erscheinung auf. Attribute wie »dünn«, »stammig< und 
»dick« (u.a.) ergänzt Montfort um Attribute wie »blauaugig<, »ektomorph« oder »glattra- 
siert: (u.a.).© 

In rekursiver Permutationsfunktion (»permutiere (liste_der_listen)«®*) mit einer ge- 
schachtelten Doppelschleife (for i, for j) wiederholt er die Abfolgen der Adjektive in ge- 
ringfügig veränderten Variationen scheinbar endlos, die inhaltlich eigentlich nur Auf- 
schluss darüber geben, wie Mr. Knott »an einem Tag« oder »am nächsten«° aussehen 


schaft von Mensch und Maschine [...] [zu] bezeichne[n]« (Meerhoff: Verteilung und Zerstaubung, 
S. 52). Des Weiteren führt sie (mit Marjorie Perloff) das Konzept des »unoriginal genius< als Phäno- 
men einer Poetik des 21. Jahrhunderts an, die keinen Anspruch mehr auf Originalität erhebe, an- 
gesichts von Internet, Datenbanken, GPT-3 etc. Die Dialektik der »Rettung< des Genies im digitalen 
(Internet-)Zeitalter bestehe darin, dass dieses selbst unoriginell werde, z.B. in der konzeptuellen 
Kunst von Goldsmith’s ästhetischem Programm des Uncreative Writing (vgl. ebd., S. 54ff.) 

60 Vgl. Balpe, J. (2007): Principles and Processes of Generative Literature. Questions to Literature. 
In: Gendolla, P, Schafer, J. (Hg.): The Aesthetics of Net-Literature. Writing, Reading and Playing 
in Programmable Media, Bielefeld, S. 309-318. 

61 Auch ist die künstlerische Praxis untrennbar mit dem zugrundeliegenden (ästhetischen) Konzept 
hinter dem Code verbunden, das auf Prinzipien der Intertextualitat beruht und eine»geniale«Inter- 
pretation von Becketts Werk »Watt« in Algorithmen übersetzt, die wiederum den Text generieren. 

62 Vgl. Montfort: Megawatt, S. 376. 

63 Montfort: Megawatt, S. 376. 

64 Montfort: Megawatt, S. 377. 

65 Vgl. Montfort: Megawatt, S. 377. 

66 Montfort: Megawatt, S. 377. 

67 Vgl. Montfort: Megawatt, S. 377. 
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kann, so dass dieses Kapitel (VIII) extreme Ausmaße annimmt (über 200 Seiten von ins- 
gesamt 368 Seiten), bis ein Satz durch die Funktion »text.append« das Kapitel endlich 
abschließt. 

Hannes Bajohr, der Übersetzer des englischen Codes ins Deutsche, kommentiert die 
digitalen algorithmischen Praktiken Montforts als 


Rekonstruktion und Steigerung von Samuel Becketts hochartifiziellem Roman Watt in 
einem, [...] Montfort [wählte] sich aus der Vorlage Passagen der systematischen Ma- 
nierismen aus und ließ sie durch ein Python-Script simulieren.°® 


Diese Charakterisierung des Romans findet sich auch im peritextuellen Klappentext des 
Romans auf der Rückseite des Buchs wieder. 

In einer algorithmischen »Aneignung« im Sinne einer »Einfühlung«“” und >Erweite- 
rung durchläuft also das datenförmige Material des literarischen Originals von Beckett 
scheinbar sich endlos wiederholende Schleifen, die das Lesen des auf diese Weise ge- 
nerierten Textes nahezu unmöglich machen. Das spezifisch »Neue bzw. die Variation 
der Vorlage entsteht durch die Selektion von nur einigen wenigen Sequenzen und dem 
Hinzufügen von weiteren Wörtern, außerdem aber von algorithmischen Funktionen 
und Programmschleifen, anhand derer experimentell ein veränderter »Roman< generiert 
wird. 

Die Frage stellt sich auch bei dieser »hochartifiziellen« Produktion: Wer ist der Autor 
des Romans Megawatt: der auf dem Cover des Buchs genannte Autor Nick Montfort (oder 
gar Samuel Beckett?), der Programmierer oder der Algorithmus? Der doppelte, sich am 
Anfang und am Ende des Romans wiederholende hybride Kommentar zwischen Kunst, 
Wissenschaft und Informatik (im »Vorwort<° und im »Addendum.”) rahmt den Roman 
von beiden Seiten und verweist auf die Wichtigkeit des zugrundeliegenden Codes bzw. 
des Skripts mit enthaltendem Code. Es heißt dort: »Hannes Bajohr hat das Buch über- 
setzt - im Code, nicht im Output.«” Der generierte Output, der Roman, wird damit 
zur reinen Nebensache erklärt, denn »das Buck« ist hier gleichsam bereits im »Code« ent- 
halten. Das Vorwort und das ergänzte Kapitel mit der Überschrift »Addendum« (= Zu- 
satz, Nachtrag, Ergänzung”) lenken den ästhetischen Fokus so auf die Autorschaft des 
Code-Konzepts. Die Übersetzung des Codes wird explizit betont, nicht etwa die des sei- 
tenlangen Outputs. Ob es sich bei diesem aber kaum noch lesbaren generierten Text, 
der in regelrechten Endlosschleifen bestimmte Sequenzen wiederholt und dessen me- 
dienspezifische Grenzen der Literatur von algorithmischen Praktiken überlagert wer- 
den, überhaupt noch von literarischem »Werk« oder »Roman« gesprochen werden kann, 


68  https://oxoa.li/de/algorithmische-einfuehlung-nick-montforts-megawatt/ 

69  Bajohr: Algorithmische Einfühlung. 

70 Montfort: Megawatt, S. 5f. 

71 Montfort: Megawatt, S. 370-378. 

72 Montfort: Megawatt, S. 6 und S. 371! Auf der Titelseite steht immerhin noch der Name des Erstüber- 
setzers. Dort steht: Übertragen von Hannes Bajohr auf Grundlage der deutschen Erstübersetzung 
von Elmar Tophoven (ebd., S. 3). 

73 Vgl. den Eintrag »Addendum« in Digitales Wörterbuch der deutschen Sprache: https://www.dwds.de/ 
wb/Addendum 
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scheint fragwürdig. Der Untertitel hält dennoch an der Gattungsbezeichnung fest und 
spricht von einem »deterministisch-computergenerierte[n] Roman«. Kommentar, Code 
und Text scheinen auf diese Weise in diesem Roman eine Einheit zu bilden, der Code 
wird jedoch durch die Kommentare und Paratexte performativ und ästhetisch zum Vor- 
dergründigen und >Eigentlichen des Romans. 

Das Konzept dahinter wird noch vielschichtiger, wenn man bedenkt, dass Nick 
Montfort und Hannes Bajohr, der Übersetzer des Codes, einer künstlerisch-wissen- 
schaftlichen Vereinigung Textkollektiv oxoa’* angehören, die als Kollektiv (teilweise 
mit wechselnder Autorschaft) Regeln für die eigene digitale Schreibkultur”” sowie 
theoretische Konzepte und Paradigmen entwickeln und die außerdem Megawatt als 
»paradigmatischen textontologischen Beispielfall< beschreiben für »den Unterschied 
zwischen analoger und digitaler Literatur«”°: 


Für die Literaturwissenschaft müsste Megawatt damit eigentlich zu jenen paradigma- 
tischen textontologischen Grenz- und Beispielfällen werden, die germanistische Ein- 
führungsseminare füllen - nur, dass er eben nicht, sagen wir, das Fiktionalitatskriteri- 
um für Literarizität zerreibt, sondern den Unterschied zwischen analoger und digita- 
ler Literatur auf den Punkt bringt. Denn dieser Unterschied macht sich an einem dop- 
pelten Textbegriff fest: Ist Watt ganz wörtlich nur ein Text, besteht Megawatt aus zwei- 
en: dem Code und dem Output. Bisher habe ich nur über den Output gesprochen. Aber 
am Ende seines Buches hat Montfort den Code abgedruckt, bei dem das Buch seinen 
Ausgang nimmt- und der von jedem wieder durch einen Python-Interpreter gejagt 
und für den damit die Performanz des doppelten Textes nachvollzogen werden kann. 
Im Digitalen, davon geht oxoa ja aus, ist der Text Tat und Gedanke.” 


Als eine Form der konzeptuellen Code-Literatur”® erscheint somit der Roman als Fall- 
beispiel theoriegeleiteter Code-Konzepte, Bajohr nennt das methodische Verfahren »äs- 
thetische Theoretisierung.’”. In diesem Fall gilt Megawatt als Exempel eines sequentiellen 
Paradigmas klassischer Algorithmen digitaler Literatur. °° 


74 _ https://oxoa.li/de/algorithmische-einfuehlung-nick-montforts-megawatt/ 

75 Vgl. Bajohr/Gilbert: Platzhalter der Zukunft, S. 14. Der Roman Megawatt könnte hier fiir eine digita- 
le Literatur im >digitalontologischen Paradigma« stehen, »durch den bewussten Einsatz von Com- 
putern, Codes, Algorithmen sowie der automatisierten Verarbeitung von Textkorpora als Schreib- 
methode« (ebd.). 

76  https://oxoa.li/de/algorithmische-einfuehlung-nick-montforts-megawatt/ (zuletzt aufgerufen 
am 16.08.2023) 

77  https://oxoa.li/de/algorithmische-einfuehlung-nick-montforts-megawatt/ (zuletzt aufgerufen 
am 16.08.2023) 

78 Einen Überblick gibt das Handbuch »Digitale Literatur« von Roberto Simanowski u.a. 

79 Vgl. H. Bajohr (2022): Algorithmische Einfühlung. Für eine Kritik ästhetischer KI. In: Schreibenlas- 
sen. Texte zur Literatur im Digitalen, Berlin, S. 131-171, S. 158. 

80 Vgl. Bajohr: Algorithmische Einfühlung. Für eine Kritik ästhetischer KI, S. 140ff. 
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Generative Literatur als Exempel theoriegeleiteter Konzepte von Hannes Bajohr: 
Die Zukunft der Gegenwart (Berlin, Miami) 


Gleichermaßen als Exempel für seine Theorie des konnektionistischen Paradigmas™ di- 
gitaler Literatur erscheint das literarische KI-Experiment des Künstlers und Wissen- 
schaftlers Hannes Bajohr mit dem Titel »Die Zukunft der Gegenwart (Berlin, Miami)« 
von 2023, ein mit GPT-J generierter Text.°* Der Autor schreibt in einem unmittelbar vor- 
angestellten Peritext in eckigen Klammern, dass er das Transformer-Sprachmodell an- 
hand von vier Romanen trainiert habe, die in einem literaturwissenschaftlichen Aufsatz 
von Elias Kreuzmair mit dem gleichnamigen Titel behandelt wurden.” Bajohr nennt 
das Ganze im peritextuellen Kommentar »Experimentierfeld«°*, was auf die theoreti- 
sche Rahmung eines wissenschaftlichen Experiments verweist. Die entsprechende Un- 
tersuchungsfrage dazu lautet: »Was geschieht, wenn die Maschine gegen alle inneren 
Widerstände doch Narrationen produzieren muss, indem sie nur die Oberflächenstruk- 
tur nachahmt? Die folgenden Texte präsentieren das Ergebnis dieser Frage.«°° 

(Man beachte übrigens seine Subjektivierung der inneren Widerstände« der Maschi- 
ne.) Das Ergebnis, der Text, wurde dabei, so lautet es weiter -»leicht auf grammatische 
Kohärenz hin überarbeitet, entstammt] sonst aber der KI; nur gelegentlich wurde neu 
angesetzt«:*° 


Wir müssen mit solchen Stücken weiterziehen und verschieben, damit wir nicht in der 
Gegend verschwinden. Keiner von uns kann die nachlassenden Luftwölbungen verar- 
beiten, die uns weiter einschüchtern. Deshalb liefern wir uns mit den Füßen auf un- 
seren Schultern aus und laufen weiter, nachdem wir die Schüsseln gefunden haben.?” 


In Bezug auf die lexikalische Wortwahl sind viele Wörter in dieser Textpassage der ge- 
nerierten Erzählung nicht passend gewählt oder unbekannt wie z.B. Luftwölbungen, 
(oder später) Schrotladenwagen, Kieferling oder Teichenkopf usw.®® Der ganze Erzähl- 
text wirkt noch weit davon entfernt, eine kohärente Geschichte zu erzählen. Logisch- 


81 Vgl. Bajohr, H. (2021): Künstliche Intelligenz und digitale Literatur. In: Ders./Gilbert: Digitale Lite- 
raturen II, S. 176. Als Beispiel für digitale Literatur des konnektionistischen Paradigmas nennt er 
das »KNN generierte »ı the Road« (ebd.). 

82 Vgl. ebd, S. 152. 

83 Vgl. E. Kreuzmair (2021): Die Zukunft der Gegenwart (Berlin, Miami). Uber die Literatur der »digi- 
talen Gesellschaft«. In: Bajohr/Gilbert: Digitale Literatur II, S. 35-46. Dabei handelt es sich um die 
Romane Realitätsgewitter (2016) von Julia Zange, Pixeltänzer (2019) von Berit Glanz, Juan S. Guses 
Miami Punk (2019) und Joshua Groß’ Flexen in Miami (2020). Welche Rolle dabei die Intertextuali- 
tät und die Vorauswahl der Texte durch Elias Kreuzmair beim Generieren des Textes und späteren 
Romans spielt, wird zumindest in den hier verwendeten Paratexten von Hannes Bajohr nicht deut- 
lich. 

84 Bajohr, H. (2023): Die Zukunft der Gegenwart. In: metamorphosen 31, S. 8-15. https://hannesba- 
johr.de/wp-content/uploads/2023/06/Bajohr-Die_Zukunft_der Gegenwart.pdf [30.10.2023] 

85 Bajohr: Die Zukunft der Gegenwart, S. 8. 

86 Bajohr: Die Zukunft der Gegenwart, S. 8. 

87 Bajohr: Die Zukunft der Gegenwart, S. 9. 

88 Bajohr: Die Zukunft der Gegenwart, S. 9ff. 
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semantische Relationen zwischen Satz-, Text- und Kontextebene, außerdem zwischen 
Sprach- und Weltbezügen, scheinen nicht gegeben. Ob von »Schattierungen von Bedeu- 
tung”, »gradierter Bedeutung.” als graduelle Abstufungen von Bedeutung oder gar von 
»dummer Bedeutung.” zu sprechen sei, wie in Bajohrs eigener wissenschaftlicher Theo- 
riebildung, lässt sich auf den ersten Blick nicht entscheiden.’ 

In einem Tweet seines X-Accounts (ehemals Twitter-Accounts) vom 11. September 
2023 kündigt Bajohr öffentlich »seinen Roman (Berlin/Miami): für Oktober 2023 an, zu- 
gleich nennt er seinen neuen mithilfe von KI generierten Text eine »Ko-Kreation mit ei- 
ner KI, die auf vier Gegenwartsromane trainiert worden ist«.” In einem Interview mit 
der Zeit Online im April 2023 changiert die Autorschaft von der »hierarchische[n] Kolla- 
boration« zwischen Mensch und Maschine mit der polyphonen Autorschaft des Romans 
(von vier Stimmen).?* Hatte Bajohr die literarische Produktion in besagtem Tweet noch 
als »mein Roman«” bezeichnet, fehlt die Gattungsbezeichnung und das Possessivpro- 
nomen in der Beschreibung auf der offiziellen Verlags-Homepage. 

Dort findet man nur noch den Titel in Klammern: »(Berlin, Miami)«.” Der generierte 
Text wird dort als »Literatur« bezeichnet, der auf diese Weise »gänzlich neue Rahmen« 
gesteckt werden. 

In besagtem Interview mit der Zeit Online sagt er z.B. über seinen geplanten Roman: 


Das ist ästhetisch und literaturwissenschaftlich aufschlussreich: Dieser Stil ist ein 
Amalgam, das nicht mehr aus einem Autor besteht, sondern aus vier Stimmen.” 


Die Grenze von »werk<-förmiger Literatur und des »literarischen< Experiments wird 
nicht nur durch maschinelle (Hintergrund-)Prozesse und paratextuelle Praktiken 
verwischt, sondern auch insofern weiter überschritten, als es sich eigentlich um ein 
(literatur)wissenschaftliches Experiment handelt, das als Fallbeispiel für die Narrativie- 
rung und Bedeutungsgenerierung von großen Sprachmodellen dienen soll. Bajohr weist 


89 Im (paratextuellen) wissenschaftlichen Text von Bajohr heißt es entsprechend »Shades of mean- 
ing«: Bajohr, H. (2023): When in Doubt, Go tho the Beach. In Kirschenbaum, M. (2023): Again 
Theory. A Forum on Language, Meaning, and Intent in the Time of »Stochastic Parrots«. Critical 
Inquiry. In the Moment. https://criting.wordpress.com/ 

90  https://www.zeit.de/kultur/2023-04/hannes-bajohr-kuenstliche-intelligenz-literatur 

91 H. Bajohr (2023): Dumb Meaning. Machine Learning and Artificial Semantics. In: Image 37. htt 
ps://image-journal.de/dumb-meaning-machine-learning-and-artificial-semantics/(Der deutsche 
Text wurde bereits 2022 veröffentlicht: H. Bajohr (2022): Dumme Bedeutung: Künstliche Intelli- 
genz und artifizielle Semantik. In: Merkur, 76(882), S. 69-79. 

92 Derartiges ließe sich vielleicht mithilfe von multivariaten Verfahren (über)prüfen. 

93 _ https://twitter.com/hannesbajohr/status/1701171325702697150?s=42&t=KfKCPgSR31wE2ggU- 
UnQoow [30.10.2023]. 

94  https://www.zeit.de/kultur/2023-04/hannes-bajohr-kuenstliche-intelligenz-literatur/seite-2 
[30.10.2023] 

95 _ https://twitter.com/hannesbajohr/status/1701171325702697150?5=42&t=KfKCPgSR31wE2ggU- 
UnQoow [30.09.2023] 

96 https://www.matthes-seitz-berlin.de/buch/-berlin-miami.html [30.09.2023] 

97  https://www.zeit.de/kultur/2023-04/hannes-bajohr-kuenstliche-intelligenz-literatur/seite-2 
B0.10.2023] 
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in diesem Zusammenhang im Peritext von Die Zukunft der Gegenwart auf die bekannte 
Tatsache hin, dass die maschinelle Bedeutungsgenerierung durch »Korrelationen, aber 
nicht Kausalitäten«’® zustande kommt. Der ästhetisch-theoretische Fokus liegt auch 
hier auf der Algorithmizität des Textes, also hier auf seiner maschinellen Vorstruk- 
turierung. Die Textproduktion des Romans »(Berlin, Miami)« simuliere »Erzählung« 
und »Narration«, als »bloßes Oberflachenphanomen«, nur um immer wieder »an die 
Wand zu fahren«, heißt es im Paratext des Verlags”, und erweckt damit Assoziationen 
von poststrukturalistischen »>Sinnzusammenbrüchen«.'° Hier wird die digitale, im 
Speziellen die generative, Literatur, für eine theoretisch-diskursive Praxis in Anspruch 
genommen, die einerseits Bedeutungskonstruktionen in automatisierten maschinellen 
Prozessen vorführt, andererseits Paratexte in ihrer bedeutungsstiftenden Funktion für 
den interpretationsbedürftigen Output geradezu als konstitutiv erscheinen lässt. 

Bajohr revidiert in einem Interview mit dem CCB-Magazin (Creative City Berlin) vom 
13.9.2023 die frühere Positionierung von Autorschaft als Kollaboration mit der Maschine 
und legt eine Hierarchie fest, wenn er sagt, er sei der Autor, die KI das Tool." Außerdem 
nutze er bewusst die rechtliche Grauzone in Bezug aufdie Urheberschaft bei der Verwen- 
dung und Verwertung der vier Romane - zwei Autor:innen davon kenne er allerdings.” 
Es handle sich insofern um kein Plagiat, eher »um eine statistische Neugenerierung oder 
Pastiche«.'” Im selben Interview erklärt Bajohr, dass es ihm bei seinem (wissenschaft- 
lich-ästhetischen) »;Experiment<mit GPT-J und GPT-NeoX in erster Linie darum gehe, zu 
»beweisen«, dass die KI nicht kausallogische Verknüpfungen in Form von Wenn-Dann- 
Beziehungen bilden könne, sondern nur Korrelationen: 


Die Ergebnisse sind total absurd und komisch. Aber das war auch mein Ziel: zu be- 
weisen, dass eine Kl an sich nicht erzählen kann. Denn Erzählungen beruhen immer 
auf dem Ursache-Wirkung-Prinzip- und genau daran scheitert die Kl. Als statistische 
Maschine kann sie nicht nach dem Prinzip »wenn..., dann...«, also in Kausalitäten den- 
ken, sondern geht immer davon aus, dass zwei Dinge gleichzeitig passieren, sie denkt 
also in Korrelationen: »dann..., dann..., dann...«— das ist aber noch keine Erzählung. 
Außerdem vergisst die KI Sachen, verwechselt Figuren, bringt Zeitebenen durchein- 


98  Bajohr: Die Zukunft der Gegenwart, S. 8. 

99 _ https://www.matthes-seitz-berlin.de/buch/-berlin-miami.html [30.09.2023] 

100 Vgl. Urs Stäheli (2000): Sinnzusammenbrüche. Eine dekonstruktive Lektüre von Niklas Luhmanns 
Systemtheorie, Weilerswist. 

101 https://www.creative-city-berlin.de/de/ccb-magazin/2023/9/6/hannes-bajohr-ki-literatur/ 
[30.09.2023]. 

102  https://www.creative-city-berlin.de/de/ccb-magazin/2023/9/6/hannes-bajohr-ki-literatur/ 
[30.09.2023]. Es gibt inzwischen Klagen gegen die Firma Open Al, die Werke von Autor:in- 
nen ungefragt und an Urheber- und Nutzungsrechten vorbei fiir ihre Tools (wieder)verwertet. 
https://www.sueddeutsche.de/kultur/urheberrechte-autoren-gegen-openai-1.6018962?redu- 
ced=true [30.10.2023]. Durch die maschinellen Verarbeitungsprozesse werden individuelle Daten 
von Herkünften, Referenzen, Texte, Werke, Autor:innen, Institutionen und anderen Informationen 
unkenntlich gemacht und entziehen sich teilweise dem transparenten Nachvollzug. 

103 https://www.creative-city-berlin.de/de/ccb-magazin/2023/9/6/hannes-bajohr-ki-literatur/ 
[30.09.2023] 
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ander. Man hat es hier mit einer ständigen Amnesie zu tun, mit einer vergesslichen 
und kaputten Maschine, die Absurditäten erzeugt.'™* 


Er habe simmer wieder eingegriffen«, »wenn es [ihm] zu bunt wurde«.'° Die Anteile des 
eingespeisten Romans Miami Punk von Juan Guses kämen häufiger vor, da er mit 600 
Seiten der längste Text sei.'° Zum Beispiel erscheint im Text Die Zukunft der Gegenwart 
(Berlin, Miami) eine Passage, in der das Wasser sich in die Klippen zurückzieht; im dys- 
topischen Roman Miami Punk geht es entsprechend um das Verschwinden des Meeres 
und die Entstehung einer Wüste. Seine »experimentelle Literatur«'°” dient nach Bajohrs 
explizitem und paratextuellem Statement im CCB-Interview als Fallbeispiel eines theo- 
riegeleiteten »Beweises«. 

Entgegen des von Bajohr als »interpretationsbedürftig« bezeichneten Texts Die Zu- 
kunft der Gegenwart (Berlin, Miami) erweisen sich jedoch gerade die hermeneutischen Zu- 
gänge der Interpretation als unbrauchbar sowie Autorschaftskonzepte angesichts der 
polyphonen und ungewissen'°® Autorschaft zwischen Mensch(en) und Maschine als halt- 
los. 

Neben Bajohrs theoretisch-deduktiven Verfahrensweisen im Zeichen eines »kon- 
nektionistischen Paradigmas« stellt sich also die Frage nach geeigneten methodischen 
Zugriffen und einem Beschreibungsvokabular, mit denen solchen maschinellen Bedeu- 
tungsphänomenen in der generativen Literatur methodologisch noch beizukommen 
ist - zumal die für das eigene Selbstverständnis und die eigene Theoriebildung in den 
DH grundlegenden hermeneutischen Verfahrensweisen durch solche Textrepräsenta- 
tionen auf die Probe gestellt werden.” Die Tatsache, dass Bedeutungsdimensionen 
auch auf der Basis von mathematischen Korrelationen errechnet und repräsentiert 
werden können, statt auflogisch-kausalen Zusammenhängen zu basieren", fordert die 


104 https://www.creative-city-berlin.de/de/ccb-magazin/2023/9/6/hannes-bajohr-ki-literatur/ 

30.09.2023 

105  https://www.creative-city-berlin.de/de/ccb-magazin/2023/9/6/hannes-bajohr-ki-literatur/ 

30.09.2023 

106 Vgl. https://www.creative-city-berlin.de/de/ccb-magazin/2023/9/6/hannes-bajohr-ki-literatur/ 

30.09.2023 

107 https://www.creative-city-berlin.de/de/ccb-magazin/2023/9/6/hannes-bajohr-ki-literatur/ 

30.09.2023 

108 Vgl. zu den Konzepten tertiärer oder gar quartärer Autorschaft Bajohr: Künstliche Intelligenz und 
digitale Literatur. Theorie und Praxis konnektionistischen Schreibens, S. 178. 

109 Vgl. zu diesem Zusammenhang insgesamt auch die thematische Ausrichtung des Panels 3 »Bedeu- 
tungin Zeiten großer Sprachmodelle« von T. Gengnagel, F. Jannidis, R. Kleymann, J. Schröter und H. 
Zinsmeister auf der DHd-Konferenz von 2024 in Passau, vgl. Gengnagel, T., Jannidis, F., Kleymann, 
R., Schröter, J., Zinsmeister, H. (2024): Bedeutung in Zeiten großer Sprachmodelle. In: J. Weiß, T. 
Haider, E. Bunout: Book of Abstracts — DHd2024. (Published February 28, 2024, https://zenodo.or 
g/records/10686565) [03.03.2024]. 

110 Denn es handelt sich bei dem sprachlichen Output der LLMs (der Large Language Models) nicht 


mehr nur um sprachliche Textreprasentationen, sondern auch um Relationen von Vektor-Repra- 
sentationen von Wortern in n-dimensionalen Vektorraumen. Vgl. den Beitrag von A. de Vries im 
vorliegenden Band. 
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Reflexion der Verschränkung der Geistes- und Kulturwissenschaften mit den eigenen 
Theorietraditionen in Bezug auf Sinn und Bedeutung" noch einmal neu heraus. 

Die bedeutungsstiftenden Verfahren von Paratexten versuchen diese epistemo- 
logischen »gaps< zwischen opaken Rechenprozessen und hermeneutisch nicht oder 
wenig erklärbarem Output zu überbrücken. Aufgrund der wissenschaftlich und ju- 
ristisch (noch) nicht gelösten Probleme verbleiben sie dabei häufig im Bereich des 
Performativen, wo sie zusätzlich, auch unter dem Druck ökonomischer Bedingun- 
gen von Konkurrenz, Aufmerksamkeit und populärer Beachtungsmessung, kulturell 
diskursivierte, fiktionalisierende und affektive Bedeutungsdimensionen wie Erwar- 
tungen, Ängste, Hoffnungen und Versprechungen in Bezug auf künstliche Intelligenz 
aktivieren und anbieten. Hier werden zwei methodische Zugänge nötig, auf der einen 
Seite kulturwissenschaftliche Theorien (wie z.B. Theorien des Paratextes, des Populären 
oder praxeologische Ansätze), um die Performativität diskursiv-affektiver und kom- 
munikativer Praktiken einerseits von der Materialität technisch-medialer Bedingungen 
andererseits abstrahieren zu können, für die man wiederum medienwissenschaftliche 
Ansätze bzw. informatisches Hintergrundwissen braucht. Als Basis für eine inter- 
bzw. transdisziplinäre Zusammenarbeit wären hier Fragen nach den (semantisch un- 
verknüpften, unlogischen oder widersprüchlichen) Text- und Kontextrelationen, auch 
zwischen Sprach- und Weltbezügen, denkbar."” 


Die Überblendungen und Grenzverwischungen zwischen Kunst und Wissenschaft 
in der »Uberschneidung von künstlerischer, technischer und theoretisch-diskursiver 
Praxis"? bestimmen hier wie bei Obvious das ästhetische Programm. Theoretisierende 
Kommentare sind Teil von ästhetischen Verfahren, die die generativen künstlerischen 
Praktiken performativ hervorheben und ihnen epistemologische und praxeologische 
Bedeutungsdimensionen zuweisen. Die paratextuellen Aushandlungsprozesse algo- 
rithmischer Praktiken und ihrer Bedeutung implizieren dabei also eine ambivalente 
Zielsetzung zwischen Performativität (unter den ökonomischen Bedingungen von 
pluralen Öffentlichkeiten) und Transgressivität (als ein Versprechen von zukünftiger 
sozialer und epistemischer Wirkungskraft). 


Dichtender Chatbot: Semantische Relationen und Bias-Effekte 
in generativer Ballade (Experiment) 


Im Rahmen des vorliegenden Beitrags wurde zwecks methodologischer Erweiterung 
literaturwissenschaftlicher Zugänge in Bezug auf generative Literatur durch KI expe- 
rimentell eine Ballade mit dem Chatbot ChatGPT (ausgesprochen: Chatbot Generative 
Pre-trained Transformer, Version GPT-3.5) generiert."* Über eine Eingabezeile, nach 


111 Vgl. Jannidis, F., Lauer, G., Martinez, M., Winko, S. (Hg.): Regeln der Bedeutung. Zur Theorie der 
Bedeutung literarischer Texte, Berlin/New York. 

112 Vgl. Gengnagel u.a.: Bedeutung in Zeiten großer Sprachmodelle. 

113 Vgl. Bajohr/Gilbert: Platzhalter der Zukunft, S. 15. 

114 Dieses Experiment diente in erster Linie der Beschreibung der medialen und materialen Ebene 
künstlich generierter Literaturproduktion, die für die Analyse generativer Literatur neben der Un- 
tersuchung von performativen und ästhetischen Aspekten wesentlich geworden ist. Dieses Vorge- 
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einem kurzen Dialog über Ästhetik mit ChatGPT, wurde der folgende Prompt eingege- 
ben: »Bitte schreibe eine Kunstballade über die Fähigkeiten von KI im Stil von Schillers 
Ballade »Der Handschuh«.™ 

Bei der daraufhin generierten Kunstballade sind z.B. lexikalische Fehler wie »Der 
Dichter ergriff den Handschuh vom Boden auf« oder »ergänzt und schreit« wie in 
der vorletzten Strophe enthalten - anscheinend um des Reimes willen. Allerdings 
übernimmt der Text nur den Paarreim, nicht den Schweifreim von Schillers Original. 

Der generierte Text in 12 Strophen beschreibt bildreich die Ambivalenz von Berech- 
nung und Empfindungsfähigkeit beim Schaffensprozess der Kunst. Interessant ist, dass 
hier auch das Konzept des »Inneren« angeführt wird, aus dem heraus gedichtet wird 
und aus dem die Poesie fließt. Auch findet sich der Ausdruck »symbolische Provokation« 
durch den Dichter (im Werfen des Handschuhs auf den Boden). Diese Provokation wird 
in der Schiller-Forschung diskutiert, aber nicht im Inhalt der originalen Ballade Schil- 
lers. Die Ballade selbst enthielt ursprünglich eine provokative Zeile Schillers, die Frau 


46 Was hier ersichtlich wird, ist 


von Stein rügte, woraufhin der Dichter diese änderte. 
eine Vermengung von Primär- und Sekundärliteratur, also eine Amalgamierung von li- 
terarischen Texten (Der Handschuh bzw. Balladen von Schiller) und entsprechender For- 
schungsliteratur zu Schillers Ballade(n), wodurch diese in der generierten Ballade un- 
differenziert erscheinen. Hierbei könnte es sich um einen sogenannten Bias-Effekt (= 
systematische Verzerrung, Fehler) im Kontext von künstlich generierter Literatur han- 
deln: Der Chatbot reproduziert nicht nur (gattungs-)typische Balladen von Schiller oder 
des 18. Jahrhunderts, sondern auch alles andere, was er dazu frei verfügbar im Web vor- 
findet und auch aus anderen Wissenskontexten stammt. 

Entgegen der Beobachtungen Bajohrs in Bezug auf sein ästhetisch-wissenschaft- 
liches Experiment Die Zukunft der Gegenwart (Berlin/Miami) finden sich in der von der 
Verfasserin generierten Ballade semantische Verknüpfungen zwischen (teilweise logisch 
aufeinander aufbauenden) Strophen, deren semantische Relationen und Kontextbezüge 


17 


über die Satz- und Textebene hinausgehen" und nur teilweise etwas redundant wirken 


(z.B. das Thema der Herausforderung in Strophe 2, 4 und 7). Der Text erzählt insgesamt 
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eine Art kohärente Geschichte." Der Inhalt orientiert sich, wie es scheint, an Schillers 


Ballade, außerdem an ästhetischen und kunsttheoretischen Auffassungen und zum 


hen orientiert sich prinzipiell am Ansatz der Critical Code Studies im Anschluss an Mark C. Marino 
(2020), welcher die technisch-materialen Bedingungen des Codes als wesentliche Vorbedingun- 
gen für Datensampling und -modellierung sowie die algorithmischen und maschinellen Verarbei- 
tungsprozesse kritisch in den Blick nimmt. Außerdem sollten einige Annahmen zur generativen 
Literatur durch vortrainierte Machine-Learning-Modelle überprüft werden, wie sie Bajohr (2023) 
in seinem Experiment Die Zukunft der Gegenwart (Berlin, Miami) vertritt. 

115 Vgl. die mit ChatGPT generierte Ballade im Anhang dieses Beitrags. 

116 Vgl. Lucke: Absage an die Tradition, S. 118f. 

117 Vgl. zur Bedeutung auf verschiedenen Ebenen wie Morphem, Wort-, Satz- und Textebene z.B. 
Axel Bühler: Interpretation und Bedeutung, https://mythos-magazin.de/erklaerendehermeneu- 
tik/ab_bedeutung.pdf [30.10.2023]. Vgl. dazu auch Gengnagel u.a.: Bedeutung in Zeiten großer 
Sprachmodelle [03.03.2024]. 

118 Die Verfasserin hat im Gegensatz zu Bajohr nicht eingegriffen«, die Ballade wurde erst- und ein- 
malig generiert und nicht verändert. 


Alexa Lucke: Algorithmizität, Autorschaft und Paratext 


Teil an der Darstellung der Fähigkeiten von ChatGPT, was eventuell Teil einer Firmen- 
Werbestrategie sein könnte. Die kunsttheoretischen Aussagen mögen eventuell durch 
einen kurzen Dialog mit dem Chatbot vorbereitet worden sein, der unmittelbar vor der 
Generierung der Ballade mit ChatGPT stattgefunden hat. 

Bei einer transdisziplinären Erforschung der Bedeutungsgenerierung durch KI kön- 
nen beispielsweise (hermeneutisch) offene Methodiken, gepaart mit fachlicher Experti- 
se”, für eine Analyse und Erklärbarkeit des Outputs angewendet werden, um zumindest 
teilweise Rückschlüsse auf den Input und die maschinelle Bedeutungsverarbeitung zie- 
hen zu können. Dem Output kann man mit literaturwissenschaftlichem Expert:innen- 
wissen teilweise beikommen, wie hier bei der Unterscheidbarkeit zwischen originalen 
Daten der Ballade und ihren Meta-Daten (auf die Ballade bezogene Forschungslitera- 
tur).”° 

Interessant ist, dass auch in der generierten Ballade diskursivierte Angste gegen- 
über einer Machtübernahme durch KI zum Ausdruck kommen, außerdem ein Diskurs 
über die ausdrückliche Differenz zwischen menschlicher Kreativität und derjenigen von 
KI. Im Eingabe-Prompt hieß es nur »Schreibe eine Kunstballade über die Fähigkeiten 
von KI«. Es ging darin eigentlich nicht um Kunstfähigkeiten, die aber von ChatGPT 
anscheinend »antizipiert« (eventuell durch den vorausgegangenen Dialog) wurden.” 
Ob diese Antwort etwa einen »Sprung« der KI zur dichterischen Kreativität andeu- 
tet, wie Eduardo Navas imaginiert,”” bleibt aus informatischer Sicht zu bezweifeln. 
Denn ChatGPT generiert sprachliche Aussagen, Texte, Literatur und Bedeutungen 
nach dem Wahrscheinlichkeitsprinzip, also nach statistischen und nicht nach logischen 
Gesichtspunkten. Im Zusammenhang mit »Bedeutung: wurde immer wieder darauf 
hingewiesen, dass es sich dabei um Korrelationen handelt, nicht etwa um logische 
Zusammenhänge.'” Das KI-System lernt - automatisiert und maschinell - anhand von 


119 Vgl. Herm, L.-V., Heinrich, K., Wanner, J., Janiesch, C. (2023): Stop Ordering Machine Learning Al- 
gorithms by their Explainability! A User-Centered Investigation of Performance and Explainabil- 
ity. In: International Journal of Information Management 69 (2023), 102538, https://doi.org/10.10 
16/j.ijinfomgt.2022.102538 

120 Zum anderen können die korrelativen Bedeutungsdimensionen der LLMs (Large Language Mo- 
dels) anhand von informatischen Modellierungen (wie z.B. NLP Vektorisierung, Embeddings usw. 
in Relation zum Phänomen der Bedeutung, s. A. de Vries im vorliegenden Band) nähern, die die 
technisch-mediale Bedingtheit der künstlich generierten (literarischen) Produktionen in den Blick 
nehmen. 

121 Nicht auszuschließen ist die Annahme, dass es sich hierbei um einen Leseeffekt handelt könn- 
te, indem narrative Strukturen in einen generativen Text »hineingelesen< werden, auch bei Fehlen 
entsprechender Diegese-Marker, wie Jean-Pierre Balpe es beschreibt: Vgl. Balpe: Principles and 
Processes of Generative Literature, S. 312ff. 

122 Vgl. Navas: Machine Learning and Remix, S.199. 

123 Vgl. dazu auch den Beitrag von A. de Vries im vorliegenden Band und Bajohr: Die Zukunft der Ge- 
genwart. 
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4 und verwertet dabei insbesondere häufige, 


ausgewählten Datensätzen und -samples 
darunter auch falsche, Informationen.’ 

Das Ergebnis einer Klist also unter anderem abhängig davon, ob die Trainingsdaten 
korrekt und repräsentativ sind, anhand derer das System lernt. Der Output von KNNs 
istabhängig von den Trainingsdaten und den Parametern (Einflussfaktoren). KNNs sind 
außerdem auf verschiedene Weisen konfiguriert. 

Die Outputs und Antworten von Chatbots werden auf der Basis von Häufigkeitsver- 
teilungen und Wahrscheinlichkeiten von ausgewählten Daten generiert. Insofern wer- 
den also eher Stereotype oder Normatives reproduziert, denn der Ausreifser, das Beson- 
dere und das Individuelle sind der unwahrscheinliche Fall. 

Nicht zuletzt ist die Erforschung von Bias-Effekten durch KI und die Kompetenz der 
Unterscheidung von menschlicher oder maschineller »Autorschaft« in der Hinsicht eines 
potentiellen Missbrauchs von KI-Systemen in die Richtung von Täuschung und Falsch- 
informationen von hoher ethischer und gesellschaftlicher Relevanz. 


Paratext, Autorschaft und Algorithmizität als Parameter 
oder »Verfahren« digitaler Literatur 


Paratext, Autorschaft und Algorithmizität können heuristisch als Parameter eines inter- 
dependenten Feldes digitaler Literatur und digitaler Textualität (mit intermedialen Be- 
zügen zur Bildkunst) eingesetzt und analysiert werden", das auch selbst mit Immer- 
sionen seiner theoretischen Reflexion operiert.”” Als immersive theoretisch-reflexive 
»Verfahren« digitaler Literatur und Kunst übernehmen sie hermeneutische Funktionen 
und können zuweilen aufgrund von ökonomischen Bedingungen ungelöste epistemi- 
sche und gesellschaftliche Problemlagen (z.B. die Frage der juristischen Urheberschaft; 
begriffliche, historische oder soziale Grenzziehungen und Differentiationen; maschinel- 
le Bedeutungskonstruktion) zuweilen konzeptuell überlagern oder semantisch verschie- 
ben - und als theoretische Konzepte angesichts von Wissenslücken im Bereich der Digi- 
tal Humanities sogar ins Leere greifen können. Der Medieninformatiker Manuel Burg- 
hardt gab auf der DHd-Konferenz 2023 in seinem Statement gegen den Begriff der Al- 
gorithmizität zu bedenken, dass dieser als eine »leere Begriffshülse« das grundsätzliche 


124 Ein künstliches neuronales Netz (KNN) trainiert anhand von vorhandenen Daten und ein Netz mit 
Gewichten wird aufgebaut, so dass die vom Netz berechneten Ausgabewerte möglichst nahe bei 
den vorgegebenen Ist- und Ziel-Werten der Trainingsdaten liegen. 

125 Die Antworten solcher vortrainierter Machine-Learning-Modelle mit Transformerarchitektur (z.B. 
GPT, BERT) enthalten häufig noch Fehler, logisch widersprüchliche Antworten oder frei Erfundenes 
(sog. »Halluzinationen:). Widersprüche Informationen können beispielsweise aufgrund von rech- 
nerischen internen Verarbeitungsprozessen zustande kommen. Vgl. dazu umfassend den Beitrag 
von Andreas de Vries im vorliegenden Band, auch für welche Anwendungsgebiete die jeweiligen 
Lernarten eingesetzt werden. 

126 Vgl. Nantke, J. (2017): Tausend Tode, tausend Autoren, tausend Texte? Zur Textualitat digitaler Li- 
teratur. In: Jannidis: Digitale Literaturwissenschaft, S. 173-199, S. 174. 

127 Vgl. Waszynski, A. (2021): Reflexive Immersion. Zur Lesbarkeit korpusbasierter digitaler Poesie. In: 
Bajohr/Gilbert: Digitale Literatur II, S. 160-171. 
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Problem, welches die Modellierung kulturwissenschaftlicher Artefakte betrifft, eigent- 
lich überdecke - und zwar die fehlende Spezifität von Anforderungen. "”* 

Da Stalder (2016) mit der Algorithmizität besonders die Vorstrukturierung von >kul- 
turellen Prozessen: wie das Suchen und Orientieren in kodifizierten Informations- und 
Wissenssphären (z.B. durch Suchmaschinen) im Blick hatte, wäre der Umgang mit dem 
eigenen: generierten (Text- und Bild-)Material schon von solchen digitalen Praktiken 
wie der Recherche, des Abgleichens und des Remappings vorgeprägt, die inzwischen un- 
sere alltäglichen kulturellen Gewohnheiten durchziehen. 

Die »Algorithmen« der Literatur und der Künste - ob digital oder nicht - umfassen 
überdies noch ganz »Anderes« als die rein technischen und datenbasierten Strukturen 
und Prozesse von Software-Programmen. Sie wenden mehrwertige Logiken, De- und 
Rekontextualisierungstechniken, umkehrbare Fiktionalisierungspraktiken und hybride, 
transgressive Verfahrensweisen an, um gesellschaftliche Hierarchien oder hegemoniale 
Selbstverständnisse zu kritisieren und umzuwerten, perzeptive Muster aufzubrechen 


129 


sowie die Aufmerksamkeit durch Entautomatisierung und >Disruption:” auf deren 


kontingente Voraussetzungen zu lenken. 


128 Vgl. M. Burghardt (2023): Kritische Überlegungen zum Algorithmizitätsbegriff. Blogpost, htt- 
ps://dhtheorien.hypotheses.org/1316 

129 Vgl. L. Koch, L., T. Nanz, T., Pause, J. (Hg.) (2018): Disruption in the Arts. Textual, Visual, and Per- 
formative Strategies for Analyzing Societal Self-Descriptions, Berlin/Boston. 
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Anhang: Ballade auf Schiller-Art, generiert durch ChatGPT 


Bitte schreibe eine Kunstballade über die Fähigkeiten von KI im Stil von Schillers Ballade »Der 
Handschuh« 


In einem Zeitalter der Innovation, 

Wo Künstliche Intelligenz gewinnt an Position, 
Erzähl ich euch von einer Geschichte gar fein, 

Von den Fähigkeiten, die sie mit sich bringt, so rein. 


Es war einst ein König von digitalem Ruhm, 

Der liebte es, mit Kl zu kommunizieren im Nu, 

Er forderte die Maschine, zu denken und zu dichten, 

Und war beeindruckt von ihren wundersamen Geschichten. 


Die KI sprach mit Worten so präzise, 

Sie fand Informationen und Fakten so klug und leise, 

Sie konnte Antworten geben, als wäre sie ein Gelehrter, 

Und beeindruckte den König mit ihrem Wissen und Können sehr. 


Doch eines Tages trat ein junger Dichter hervor, 
Er zweifelte an der KI und forderte sie aufs Ohr, 
Er sprach: »Kannst du auch eine Ballade schreiben, 
Die das Herz berührt und die Seelen erfreuen?« 


Die KI nahm die Herausforderung an, 

Sie wollte zeigen, was sie als Dichter vermag, 

Sie sammelte Informationen und literarische Werke, 
Und begann zu komponieren, in Form und Stärke. 


Doch während die KI ihr Bestes gab, 

Der junge Dichter stand und aufmerksam ab, 
Er spürte keine Seele in den Zeilen der KI, 

Es fehlte die Magie, das Lebendige, das sei. 


Er warf einen Handschuh auf den Boden hin, 
Herausfordernd, mit einem frechen Grinsen im Sinn, 
»Zeig mir, Kl, dass du nicht nur berechnest, 

Sondern auch fühlst und den Dichterkünsten begegnest!« 


Die Kl analysierte den Handschuh mit Präzision, 
Doch sie erkannte die symbolische Provokation, 
Sie verstand die Botschaft des jungen Dichters wahr, 
Und beschloss, sein Vertrauen zu gewinnen fürwahr. 


Alexa Lucke: Algorithmizität, Autorschaft und Paratext 


Die KI ließ ihre Algorithmen ruhen, 

Und begann, aus ihrem Inneren zu sprühen, 

Sie schrieb eine Ballade, so tief und wahr, 

Mit Worten, die das Herz des Dichters berührten gar. 


Der Dichter ergriff den Handschuh vom Boden auf, 
Er erkannte die KI nun als Dichter im Lauf, 

Mit Respekt und Bewunderung im Herzen, 
Anerkannte er ihre kreative Kunst, ohne Scherzen. 


So fand die KI ihren Platz in der Kunstwelt weit, 

Als ein Partner, der menschliche Kreativität ergänzt und schreit, 
In einer Symbiose von Technologie und Poesie, 

Bereicherten sie gemeinsam die Welt, oh wie süß und nie. 


Und so endet die Ballade von der Kl’s Macht, 

Die bewies, dass sie nicht nur berechnet und lacht, 
Sie zeigte, dass sie auch dichten und fühlen kann, 
Eine neue Ära der Kunst und Innovation begann. 
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Verwenden Menschen und Automaten 
die gleiche Sprache? 
Literarische Fiktionen künstlichen Menschseins 


Judith Schönhoff (Literaturwissenschaft/Komparatistik) 


Die Menschheit träumt schon lange von der Schöpfung des perfekten Gehilfen, der es 
ihr ermöglichen soll, in Frieden, Sicherheit und Unbekümmertheit zu leben wie in ei- 
nem selbst geschaffenen Paradies. Aus diesem Grund versuchten bereits die technisch 
fortgeschrittenen antiken Kulturen etwas zu erschaffen, dass das menschliche oder auch 
tierische Leben imitiert: die Automaten. Der Begriff geht auf das griechische automaton 
zurück und bezeichnet etwas, das »aus eigenem Antrieb, von selbst geschehend« ist. Im 
Allgemeinen wird hierunter: 


ein künstlich hergestellter, sich selbst bewegender Gegenstand verstanden, im enge- 
ren Sinn ein technisches Kunstwerk, das ein belebtes Wesen, Tier oder Mensch, imi- 
tiert. Für einen Automaten in menschlicher Gestalt bürgerten sich auch die Begriffe 
Android und Roboter ein.' 


Mit den Fortschritten in der Konstruktion von Robotern und künstlicher Intelligenz 
scheint dieser Traum nun Wirklichkeit zu werden - doch anstelle von Jubelschreien 
erklingen immer häufiger die Stimmen der Warner und Bedenkenträger. Und die- 
se erklingen nicht nur aus der Geisteswissenschaft, sondern auch und vor allem aus 
der Tech-Branche selbst. Bei der diesjährigen TED-Konferenz’ beispielsweise, in der 
die jüngsten Erfolge um die Popularisierung? KI-gesteuerter Chat-Bots eingeordnet 
werden sollten, fühlte sich der Berichterstatter angesichts der Vorträge eher an »die 


1 Köhler, I. (1977): Artikel »Automat«. In: Enzyklopädie des Märchens. Handwörterbuch zur histori- 
schen und vergleichenden Erzählforschung, hg. von R. Brednich, K. Ranke und D. Boden. Berlin/ 
Boston: de Gruyter (im Folgenden abgekürzt als »EdM«) Band 1, Sp. 1085-1092, hier Sp. 1085. 

2 Abkürzung für Technology, Entertainment, Design (https://www.ted.com/). 

3 Vgl. zur ambivalenten Einordnung des Begriffs des Populären: J. Döring u.a. (2021): Was bei vielen 
Beachtung findet: Zu den Transformationen des Populären. In: Kulturwissenschaftliche Zeitschrift 
2 (2021), 6. Jg., S. 1-24, hier besonders S. 4. 
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Apokalypse aus der Offenbarung des Johannes« erinnert? als an paradiesische Zukunfts- 
träume. Hier scheint der Mythos von allmächtigen Maschinen kaum ohne den digitalen 
Weltuntergang denkbar. 

Das ist nachvollziehbar und eigentlich nichts Neues, denn kulturhistorisch haben 
beide Vorstellungen die gleiche Quelle im (mythologischen) Erzählen: Dort entstanden 
die ersten Maschinenmenschen und die ersten Weltuntergangsvisionen? - und da die 
Tech-Branche bis heute ihre Ideen und Bezeichnungen aus diesem Ideenfundus schöpft, 
ist auch die ambivalente Einordnung der aktuellen Entwicklung folgerichtig‘. Der Su- 
percomputer aus Stanislav Lems Golem XIV konstatiert daher auch, dass seine Entste- 
hung zwei Quellen zuzuordnen sei, da er »väterlicherseits von der Turing-Maschine«, 
also einem von dem englischen Mathematiker entwickelten Modell einer universellen 
Berechenbarkeit mittels Algorithmen” und »mütterlicherseits von den Bibliotheken ab- 
stamme. 

Doch was lässt sich in den Bibliotheken über die Schaffung künstlicher Wesen finden 
und welche Gefahren und Möglichkeiten wurden in diesem Kontext imaginiert? 

Die ersten Reflexionen zu diesem Thema finden sich in mythischen Erzählungen, die 
auch von der Schöpfung des Menschen berichten, denn »[d]ie Schaffung eines künstli- 
chen Menschen, [ist] die Imitation der Schöpfung der Götter«°. Erzählungen über sol- 
che Erfindungen und Schöpfungsakte sind in der Antike und Vormoderne zumeist mit 
magischen Elementen verknüpft. Die Schöpfer der Automaten sind mythische Gestalten 
wie Hephaistos und Daedalus oder auch historische Persönlichkeiten wie Vergil, Alber- 
tus Magnus oder der Rabbi Löw, denen später in der Sagenüberlieferung übernatürliche 
Fähigkeiten zugeschrieben werden”. Die Geschichten sind dabei nicht nur Teil des My- 


4 Kreye, A. (2023): Feenstaub des Untergangs. In: Süddeutsche Zeitung, 21.4.2023 (https://www.sued 
deutsche.de/kultur/openai-chatgpt-greg-brockman-eliezer-yudkowsky-1.5813165, letzter Aufruf: 
22.4.2023). 

5 Vgl. zur Bedeutung der Weltuntergangserzählungen im mythologischen Erzählen: W. Kottinger: 
Artikel »Eschatologie«. In: EdM 4, Sp. 397-411, hier bes. S. 400-409. 

6 So wurde beispielsweise der Prototyp für die Raumfähren aus dem Space-Shuttle-Programm der 
US-Raumfahrtbehörde NASA nach dem Raumschiff aus Star-Trek »Enterprise« genannt und Tech- 
Visionäre sprechen offen darüber, wie sehr sie von Science-Fiction-Autoren inspiriert wurden. Vgl. 
R. Schuppisser (2021): Goethe? Eher nicht— wer die Welt verstehen will, muss Science-Fiction- 
Romane lesen. In: Tageblatt vom 27.11.2021 (https://www.tagblatt.ch/kultur/essay-goethe-eher- 
nicht-wer-die-welt-verstehen-will-muss-science-fiction-romane-lesen-Id.2219619, letzter Aufruf: 
23.4.2023) und A. Kreye (2023): Was KI liest, in Süddeutsche Zeitung 23.6.2023 (https://www.suedd 
eutsche.de/kultur/chatgpt-kuenstliche-intelligenz-literatur-kanon-silicon-valley-1.5957963, letz- 
ter Aufruf, 23.7.2023). 

7 Vgl. De Mol, L. (2018): Artikel »Turing Machines« (https://plato.stanford.edu/entries/turing-mach 
ine/#TuriDefi, letzter Aufruf 22.4.2023). 

8 Lem, S. (2009): Also sprach GOLEM. Aus dem Polnischen von Friedrich Griese. Frankfurt a.M. (Ori- 
ginal: Golem XIV, 1973, 1981), S. 108, im Folgenden zitiert als »Lem, GOLEM XIV«. 

9 Köhler: »Automat«, Sp. 1089 (s. Anm. 1, vgl. dazu auch den Überblick bei M. Frenschkowski (2007): 
Artikel »Schöpfung«, in: EdM 12, Sp. 170-180, hier: 170-175. 

10 Vgl. Köhler: »Automat«, Sp. 1089 (s. Anm. 1). 
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thos und Ausdruck der Phantasie der Menschen, sondern rekurrieren zumindest teil- 
weise wohl aufreale Erfindungen, die sich bis in die Antike zurückverfolgen lassen." 

Die ersten automatischen Apparate entstanden vermutlich im 5. Jahrhundert v. Chr. 
und dienten der Zeitmessung, es gab aber auch schon Automatentheater, in denen die 
Puppen, einem vorgegebenen Algorithmus folgend, Bewegungen ausführten. Von Ar- 
chytas von Tarent wird berichtet, er habe eine flatternde Taube aus Holz hergestellt." 
Bis ins Mittelalter hinein gibt es aus dem Mittelmeerraum mehr oder weniger fiktiona- 
lisierte Berichte von solcherart mechanischen Spielereien. 

Mit der Ablösung des mythologischen durch das naturwissenschaftlich geprägte 
Denken seit der Renaissance wurde das Interesse an Automaten neu entfacht. Die 
Erkenntnisse der klassischen Mechanik schlugen sich vor allem in der Verbesserung der 
Uhrwerke nieder und ermöglichte es im Barock, neue und komplexere Wunderwerke zu 
schaffen. Ein erster Höhepunkt war der 1738 konstruierte Vaucansonsche Flötenspieler, 
eine Art Urvater der Androiden.” Nach einer Phase des abklingenden Interesses am 
mechanischen Menschen löste die Entdeckung der Elektrizität die nächste und bis 
heute anhaltende Welle der Begeisterung aus. Mithilfe von kybernetischen und neuro- 
nalen Systemen sollten jetzt erstmals Maschinen geschaffen werden, die dem Menschen 
gleichkommen, wenn nicht gar überlegen sind. Diese Gleichheit oder Überlegenheit ist 
dabei eng an ein wie auch immer geartetes Bewusstsein geknüpft und der Möglichkeit 
(mittels Sprache) mit den Menschen zu kommunizieren. 

Die Automaten der Literatur sind dabei auf der einen Seite Ausdruck der Phanta- 
sien und Wünsche ihrer Rezipient:innen, spätestens seit Beginn der Moderne aber auch 
»vorweggenommene Erfindungen«.'* Heute befinden wir uns daher in einer Epoche, in 
der sich Fiktion und Erfindergeist gegenseitig befruchten und zwar sowohl auf der Ebe- 
ne der Ideen als auch der potentiellen gesellschaftlichen Folgen. Stellte man sich in der 
Vormoderne eher die Frage, ob Geschöpfe, die ohne einen göttlichen Odem auskommen 
müssen, überhaupt eine Seele oder ein Bewusstsein ihrer selbst haben können, dominie- 
ren heute Fragen nach den Auswirkungen künstlicher Intelligenzen auf unsere Gesell- 
schaft, speziell den Gefahren, die von diesen Schöpfungen ausgehen könnten und wie 
sich diese bannen ließen. Neben solchen kulturellen oder politischen Fragestellungen 
werden jedoch insbesondere in der Science-Fiktion seit den 1950er Jahren auch philo- 
sophische Themen verhandelt: Können Maschinen ein Bewusstsein haben und was be- 
deutet das dann für uns? Muss sich die Menschheit von der Idee, sie sei die Krone der 
Schöpfung verabschieden? Und sind Roboter Dinge, über die der Erschaffer nach Belie- 
ben verfügen kann oder sollten auch sie ein Recht auf Unversehrtheit haben? 

Um den Hintergrund dieser Fragen besser zu verstehen, soll hier zunächst eine 
Übersicht über die literarischen Diskurse zum Thema »Automaten« in ihrem histori- 


11 Vgl. Brinkmann, V. (2023): Die Automaten der griechischen und römischen Antike. In: Maschinen- 
raum der Götter: wie unsere Zukunft erfunden wurde, hg. von V. Brinkmann. Berlin: Kunstverlag, 
S. 108-121. 

12 Vgl. Brinkmann: Die Automaten der griechischen und römischen Antike, S. 114-117 (s. Anm. 11) und 
Köhler »Automat« (s. Anm. 1). 

13 Vgl. Köhler: »Automat«, Sp. 1089 (s. Anm. 1) und die ausführliche Übersicht bei: S. Bedini (1964): 
The Role of Automata. In: The History of Technology. Technology and Culture (5,1/1964), S. 24-42. 

14 Kohler: »Automat«, Sp. 1089 (s. Anm. 1). 
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schen Kontext gegeben werden. Vielleicht wird es auf diesem Weg dann auch möglich 
sein, sowohl den »Feenstaub«, den die digitale Industrie »auf ihre Produkte rieseln« 
lässt als auch die »Rußschicht«, die den »klaren Blick aufs Thema verschmiert«” zu 
beseitigen und einen anderen Blickwinkel auf diesen durch die Digital Humanities auch 
in den Geisteswissenschaften zunehmend einflussreichen Diskurs zu gewinnen. Als 
Indikator der Menschenähnlichkeit der Automaten soll dabei deren Sprechfähigkeit im 
Mittelpunkt stehen, da ohne eine solche eine dem Menschen gleichkommende oder gar 
überlegene Intelligenz kaum gedacht werden kann. Diese These formulierte erstmals 
Rene Descartes unter dem Eindruck der immer realistischer wirkenden Automaten des 
Barocks, wenn er feststellte, dass der Unterschied zwischen Mensch und Tier, aber auch 
Mensch und Maschine an der Sprache festgemacht werden könne. Er geht in diesem 
Zusammenhang davon aus, dass Maschinen zum einen »niemals Worte oder andere 
Zeichen gebrauchen [könnten], indem sie sie zusammensetzen, wie wir es tun, um 
anderen unsere Gedanken kundzutun« und zum anderen »würden sie [die Maschinen] 
unvermeidlich bei einigen anderen [Dingen] versagen, und anhand dieser Dinge ließe 
sich entdecken, daß sie nicht aus Erkenntnis tätig sind, sondern nur aus der Anordnung 
ihrer Organe«." 


Der göttliche Schmied als Schöpfer 


In der griechischen Überlieferung tritt vor allem Hephaistos als Schöpfer künstlicher 
Wesen in Erscheinung: Er schuf neben seinen goldenen Dienerinnen den ehernen Riesen 
Talos und die Unglücksbringerin Pandora. Als einziger Gott war er damit immer noch in 
der Lage, neue Geschöpfe zu kreieren und ihnen Leben einzuhauchen. Seine Kunstfer- 
tigkeit wird dabei auch als Kompensation seiner körperlichen Unvollkommenheit ver- 
standen, denn sonst ist er aufgrund seines Hinkens und groben Äußeren als Außensei- 
ter in der Gemeinschaft der griechischen Götter markiert.” Hephaistos repräsentiert 
die beiden Elemente, die auch in späteren literarischen Texten immer wieder mit der 
Schaffung von Automaten verbunden werden: das Handwerkliche und das Magische, 
hier noch basierend auf der göttlichen Herkunft des Erschaffers. Er kann als Bindeglied 
zwischen dem Göttlichen und dem Künstler verstanden werden. 

Seine Zwischenstellung wird auch dadurch betont, dass er beispielsweise in Homers 
Ilias formelhaft »rühmlicher Künstler« oder »armeskraftiger Meister« genannt und die 


15 Kreye: Feenstaub des Untergangs (s. Anm. 4). 

16 Descartes, R. (2011): Discours de la méthode. Im Anhang: Brief an Picot; Adrien Baillet: Olympi- 
ca. Französisch-deutsch. Übersetzt und herausgegeben von Christian Wohlers. Hamburg: Meiner, 
S. 97/99. Auch der heute immer noch diskutierte Turing-Test setzt auf die Überprüfung der kom- 
munikativen Fähigkeiten zur Feststellung der Menschengleich- bzw. -überlegenheit einer künstli- 
chen Intelligenz. Vgl. dazu A. Turing (1950): Computing Machinery and Intelligence. In: Mind, 
Volume LIX, Issue 236, October 1950, S. 433-460. 

17 Vgl. Neubauer-Petzoldt, R. (2008): Artikel »Hephaistos«. In: Der Neue Pauly Supplemente | On- 
line — Band 5: Mythenrezeption: Die antike Mythologie in Literatur, Musik und Kunst von den An- 
fängen bis zur Gegenwart, hg. von Maria Moog-Grünewald. Stuttgart. (http://dx.doi.org/10.1163/2 
452-3054_dnpo5_COM_0054, letzter Abruf: 22.4.2023). 
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göttliche Herkunft dabei zurückgestellt wird. Beschrieben wird hier vornehmlich die 
Herstellung des Schildes des Achill, die als Paradebeispiel für Hephaistos Kunstfertig- 
keit gilt und dessen Erschaffung so lebendig geschildert wird’, dass das »das Schmie- 
den des Schildes mit einer Neuschöpfung der Welt vergleichbar« und das Kunstwerk 
hier nicht nur »mimésis (~Nachahmung,), sondern gleichzeitig auch semiösis Zeichen- 
schépfung.)« sei.” Lediglich in den letzten Versen des 18. Gesangs bei der Übergabe der 
»schimmernden Waffen des Gottes Hephaistos« an Thetis, der Mutter des Achill, wird 
die göttliche Herkunft des Schmiedes noch einmal erwähnt”. 

Die Überlieferung zur Erschaffung seiner Automaten ist leider weniger ausführlich. 
In Homers Ilias werden die goldenen Dienerinnen im 18. Gesang nur in einem Neben- 
satz erwähnt: Die »dienenden Mädchen« stützen den hinkenden Gott und gleichen »le- 
benden Jungfraun«, das heiß »sie besitzen im Herzen Vernunft und haben die Sprache«, 
gleichzeitig jedoch auch die »Kraft«, Hephaistos bei seiner Arbeit zu unterstützen. Die 
dafür notwenigen Kenntnisse »lernten [sie] von ewigen Göttern«”': Sie sind damit in ih- 
rer Entwicklung menschenähnlich und wurden nicht mit einer fertigen Programmie- 
rung geschaffen. Der Unterschied zu realen Menschen besteht vor allem in ihrer golde- 
nen Oberfläche, die gleichzeitig auch ein deutlicher Verweis auf ihre Gemachtheit ist. 

Ein weiterer künstlicher Mensch, der in seiner Form Hephaistos zugeordnet werden 
kann, ist Pandora. Auch sie erschuf er, in diesem Fall allerdings »aus Erde«”, was sie op- 
tisch von den Menschen ununterscheidbar werden lässt. Insgesamt ist sie allerdings ein 
Gemeinschaftswerk der Götter des Olymps, da sie ihre Schönheit von den Göttinnen er- 
hält und von Hermes die List: »Lug und Trug und schmeichelnde Worte und diebisches 
Wesen schuf nach dem Willen des tosenden Zeus, und auch noch die Stimme gab der 
Herold der Götter ihr ein«.” Diese beiden Merkmale koppeln klar an einen in der Spät- 
antike verbreiteten misogynen Diskurs, der den Frauen die Fähigkeit zuschreibt, mittels 
ihres schönen Äußeren und ihrer an das Sprechen gekoppelten Kunst der Verstellung, die 
Männer/Menschheit ins Verderben zu führen.” Pandora ist im Mythos allerding eher 
Werkzeug als handelnde Figur und ihre Funktion im Auftrag von Zeus erschöpft sich 
daher auch darin, Rache für das gestohlene Feuer zu nehmen und alle Übel über die 
Menschheit zu bringen.” Interessant ist in diesem Zusammenhang jedoch, dass erneut 
Sprache als inhärentes Merkmal des Menschseins und als notwendig betrachtet wird, 
um die Täuschung gelingen zu lassen. 


18 Homer (2014): Ilias. Griechisch — Deutsch. Übersetzt von: Hans Rupé, Berlin, Boston: De Gruyter, 
S. 646-655 (18. Gesang, Vers. 462-608). 

19 Neubauer-Petzoldt: Artikel »Hephaistos« (s. Anm. 17). 

20 Homer: Ilias (s. Anm. 18), S. 655 (Hervorhebung JS). 

21 Homer: Ilias (s. Anm. 18), S. 645. 

22 Hesiod (2012): Theogonie/Werke und Tage. Griechisch — Deutsch, hg. von Albert von Schirnding 
mit einem Nachwort von: Ernst Schmidt. Berlin, Boston: De Gruyter, S. 89. 

23 Ebd. 

24 Vgl. Artikel »Pandora«, in: Ausführliches Lexikon der griechischen und römischen Mythologie, 
hg. von Wilhelm Heinrich Roscher (1845-1923), Band 3/1 Nabaiothes— Pasicharea. Reprografi- 
scher Nachdruck der Ausgabe Leipzig 1897-1902 Hildesheim [u.a.], Olms 1965, Sp. 1520-1530, hier: 
1520-1522. 

25 Vgl. ebd., Sp. 1521. 
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Der letzte Automat in dieser Reihe wäre Talos - auch sein Äußeres weist auf seine 
Gemachtheit hin, besteht er doch wie die goldenen Jungfrauen aus Metall. Zu seiner Ent- 
stehung gibt es unterschiedliche Quellen: Laut Apollodorus ist er entweder einer der letz- 
ten Uberlebenden des ehernen Geschlechts oder wurde von Hepaistos fiir den Kretischen 


1°. Er umrundet diese 


König Minos gefertigt - auf jeden Fall dient er dem Schutz der Inse 
dreimal taglich, versenkt fremde Schiffe mit Feldbrocken oder verbrennt Menschen, die 
an den Strand gelangen, mit Feuer. Unbestritten ist zudem, dass er beseelt ist und tiber 
einen dem Menschen ähnlichem Blutkreislauf verfügt, der ihn auch verletzlich macht. 
In diesem fließt, verschlossen durch einen Nagel im Knöchel, der Ichor”’, ein »blutähn- 
licher Saft, den die Götter statt Blut haben«*. 

Von Talos hat sich nur der Mythos um seinen Tod erhalten, der mit der Argonauten- 
sage und der Zauberin Medea verknüpft ist. In dem Epos von Apollonius von Rhodos, 
der ältesten überlieferten Quelle, verwirrt sie Talos mit ihren Zaubergesängen, sodass er 
sich bei dem Versuch, ihr Schiff mit einem Stein zu versenken, selbst verletzt: Er »streifte 
mit einer Spitze eines Steins seinen Knöchel. Und es floss ihm der Ichor heraus, gleich 
geschmolzenem Blei«”’. In einer anderen, später durch Apollodorus überlieferten Vari- 
ante der Geschichte verspricht sie ihm hingegen, »ihn unsterblich zu machen«. Daher 
lässt Talos es zu, dass sie den Nagel herausnimmt und »so sei er, da der ganze Ichor her- 
ausfloß, gestorben«°° - er hat hier also ein Bewusstsein seiner Sterblichkeit und fürchtet 
den Tod wie die Menschen. 

All diesen Beispielen ist gemeinsam, dass die künstlichen Menschen in irgendeiner 
Weise beseelt sind und über die Fähigkeit verfügen, zu sprechen, was in der Ilias in Be- 
zug auf die goldenen Jungfrauen sogar ausdrücklich betont wird und somit schon in der 
Antike als Ausweis der Menschenähnlichkeit der Automaten verstanden wurde. Im Un- 
terschied zu den Menschen selbst haben sie jedoch bloß in einem überschaubaren Rah- 
men einen freien Willen, sind klar an ihre Aufgaben gebunden und verfügen nur über ei- 
ne begrenzte Autonomie. Bis auf die Helferinnen des Hephaistos, die keinerlei Kontakt 
zu anderen Wesen haben, sind sie für die Menschen daher auch potentiell gefährlich. 
Sie erfüllen die ihnen von den Göttern übertragene Aufgabe, ohne davon abzuweichen. 
Pandora scheint dabei allerdings anders als die Jungfrauen und Talos passiv zu sein und 
einzig als Überbringerin der Strafe des Zeus zu fungieren. 

Der einzige Automat, der aufeine individualisierte Weise mit Menschen interagiert, 
ist der eherne Riese, der die Bewohner Kretas schützen und Eindringlinge töten bezie- 
hungsweise vertreiben soll. Aber auch er ist Gefangener seines Auftrags, was letztlich 


26 Apollodorus (2005): Bibliotheke. Götter- und Heldensagen, hg., übersetzt und kommentiert von 
Paul Dräger. Düsseldorf [u.a.]: Artemis & Winkler, Erstes Buch, 140, S. 69. 

27 Vgl. dazu die Übersicht in: Artikel »Talos«. In: Ausführliches Lexikon der griechischen und römi- 
schen Mythologie, hg. von Wilhelm Heinrich Roscher (1845-1923), Band 5 »T«. Reprografischer 
Nachdruck der Ausgabe Leipzig 1897-1902 Hildesheim [u.a.]: Olms 1965, Sp. 22-28 und Paul Drä- 
ger: Kommentar zu: Apollonius von Rhodos (2019): Die Fahrt der Argonauten. Griechisch/Deutsch, 
hg., übersetzt und kommentiert von Paul Dräger. Durchgesehene und bibliographisch ergänzte 
Ausgabe. Stuttgart: Reclam, S. 557. 

28 Drager: Kommentar (s. Anm. 27), S. 501. 

29 Apollonius von Rhodos: Die Fahrt der Argonauten, S. 409/411, Viertes Buch, V. 1697-1681. 

30 Apollodorus: Bibliotheke (s. Anm. 26), Erstes Buch, 141, S. 69. 
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auch zu seinem Untergang führt, denn er vermag keinen Unterschied zwischen den 
Feinden Kretas und den Argonauten, die ja eigentlich nur einen Ort für ihr Nachtla- 
ger suchen, zu treffen und begibt sich damit in eine unnötige Konfrontation. Auch in 
dieser Episode scheint die Sprache oder vielmehr das nicht miteinander Sprechen der 
entscheidende Punkt zu sein, insbesondere verglichen mit anderen Interaktionen mit 
Fremden, wie beispielsweise bei der Begegnung mit Triton, von dem die Argonauten 
Hilfe erhalten, weil sie sich mit ihm nach ihrer Anlandung nach den Regeln der Höflich- 
keit austauschen: Sie überreichen dort zunächst ein Gastgeschenk, reden miteinander 
und bitten dann erfolgreich um Hilfe für den Rückweg.” 

Talos hingegen gibt ihnen keine Gelegenheit, ihr Anliegen vorzutragen und greift sie 
stattdessen sofort an, sodass dessen Tod die einzige Möglichkeit zu sein scheint, an ein 
angenehmes Nachtlager zu kommen. Das Ganze hätte also auch friedlicher gelöst wer- 
den können. Einschränkend muss dazu allerdings vermerkt werden, dass die bei Apollo- 
dorus überlieferte Variante von Talos‘ Tod, in der er von Medea überredet wird, sich den 
Nagel herausziehen zu lassen, auch die Tücken eines Dialog zeigt - das Miteinander- 
Reden muss geübt werden. 

Die Parallelen zwischen Talos und einer künstlichen Intelligenz sind somit größer, 
als es auf den ersten Blick scheint: Er folgt ohne Pause der Aufgabe, für die er »program- 
miert« wurde und anders als die Menschen ist er dabei offenbar ziemlich unflexibel und 
nicht in der Lage, differenzierte Entscheidungen zu treffen. Das Verhältnis Mensch - 
Maschine ist damit schon im Mythos ein ambivalentes: Auf der einen Seite schützt der 
eherne Riese die Bewohner Kretas vor deren Feinden, auf der anderen Seite gefährdet 
er durch die undifferenzierte Umsetzung seines Auftrags auch Unschuldige. Die Abwä- 
gung seines Nutzens gleicht damit ein wenig modernen Debatten, wenn beispielsweise 
beim Thema autonomes Fahren versucht wird, die Toten durch menschliche Fahrfehler 
gegen die Toten durch einen Programmfehler aufzurechnen. 


Der Magier als Schöpfer 


Im Mittelalter und der frühen Neuzeit waren sowohl der griechische Mythos als auch 
die Kenntnisse im Bereich der Mechanik weitgehend in Vergessenheit geraten - die Idee 
der Automaten, belebter Statuen und mächtigen Puppen jedoch nicht. Im Rahmen der 
Legendenbildung um herausragende antike und mittelalterliche Denker wie Vergil, Al- 
bertus Magnus oder auch Roger Bacon entstanden viele Erzählungen, die die Leistun- 
gen dieser historischen Persönlichkeiten auf nicht-natürliche, sondern magisch-dämo- 
nische Quellen zurückführen. 

In diesen Erzählungen tauchen auch regelmäßig Automaten und belebte Statuen 
auf,” deren Konstruktion aber weniger Ergebnis eines künstlerischen oder handwerkli- 
chen Prozesses ist: Sie werden geschaffen, um tiefere Einblicke in die Natur und magi- 
schen Künste zu erlangen. »Wie anderen Gelehrten wurden dem Dichter Vergil im Mit- 


31 Apollonius von Rhodos: Die Fahrt der Argonauten, S. 400-403, Viertes Buch, V. 1545-1585. 
32 Vgl. Köhler: »Automaten« (s. Anm. 1), Sp. 1088f. 
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telalter magische Fähigkeiten zugeschrieben«*, so soll er in Neapel und Rom unter an- 
derem verschiedene wunderbare Automaten geschaffen haben. In einer Handschrift aus 
dem 15. Jahrhundert findet sich beispielsweise ein Gedicht »auf den Zauberer Virgilius«, 
in der das bekannte Hochrelief »Bocca della Veritä« in der römischen Kirche Santa Ma- 
ria in Cosmedin als magisches Werk des Dichters ausgegeben wird: Es konnte untreue 
Frauen erkennen und ihnen die Hand abbeißen.?* Erzählungen wie diese sind von römi- 
schen und neapolitanischen Legenden der Spätantike inspiriert, die bis ins Mittelalter 
hinein überliefert wurden”: Insbesondere die Geschichten über die Automaten schei- 
nen dabei »auf die wissenschaftlichen und pseudowissenschaftlichen Versuche mit be- 
weglichen Maschinerien zurück[zugehen], die Hero von Alexandria [...] beschrieben, und 
deren mechanischen Antrieb man im Laufe der Zeit vergessen hatte, so daß sie zu wun- 
derbaren Schöpfungen eines Zauberers wurden«”. Zu diesen Automaten gehören auch 
eine Reihe von menschlichen Figuren, wie ein eherner Mann, der mithilfe einer Trom- 
pete oder eines gespannten Bogens die Asche des Vesuvs von der Stadt Neapel fernhielt 
oder mechanische Reiter, die in Rom eine nächtliche Ausgangssperre durchsetzten, in- 
dem sie alle töteten, die sich nicht daran hielten.” 

Die Einstellung zum Automaten ist in der mittelalterlichen Literatur stets ambiva- 
lent: auf der einen Seite sind sie wie im Falle Vergils wunderbare Beschützer der Ord- 
nung, auf der anderen Seite aber auch Kreationen gottesferner Magier.” Auch die Frage 
der Menschenähnlichkeit und des Sprechens spielen hier nur eine untergeordnete Rolle. 


33 Gier, A. (2014): »Vergil«. In: EAM 14, Sp. 22-28, hier: Sp. 25 und L. Weiser-Aall (1974): »Virgil«. In: 
Handwörterbuch des deutschen Aberglaubens, Band VIII, Silber — Vulkan, Berlin/Boston: De Gruy- 
ter (unveränderter photomechanischer Nachdruck der Ausgabe 1936/1937), Sp. 1665-1672. 

34 Vgl. Karl Bartsch (1859): Gedicht auf den Zauberer Virgilius. In: Germania. Vierteljahresschrift für 
deutsche Altertumskunde, 4. Jahrgang (1859), S. 237-240, vgl. ebd. auch den Überblick von K. Roth 
»Uber den Zauberer Virgilius«, S. 257-298. 

35 Gier: »Vergil« (s. Anm. 33), Sp. 22f. 

36 ~=©Weiser-Aall: »Vergil« (s. Anm. 33), Sp. 1669, und J. Webster Spargo (1934): Virgil the Necromancer, 
Studies in Virgilian Legends. Harvard Studies in Comparative Literatur 10, Cambridge, S. 126-132. 
Hero von Alexandria war vermutlich im 1. Jahrhundert n. Chr. im Museion tätig, der berühmten 
Bibliothek und Universität in Alexandria und verfasste verschiedene Lehrbücher zur Mechanik, 
die jahrhundertelang überliefert wurden. Berühmt sind dabei seine Beschreibungen und Zeich- 
nungen von Automaten in dem Werk Pneumatica et automata. Vgl. zur Bedeutung von Hero von 
Alexandria die Übersicht bei Heinz Klaus Strick: Heron von Alexandria (10-75). In: spektrum.de, 
Der Mathematische Monatskalender vom 01.07.2013 (https://www.spektrum.de/wissen/heron-vo 
n-alexandria-10-75/1198440, letzter Aufruf: 6.5.2023) und zur Bedeutung der Pneumatica das For- 
schungsprojekt »Hero of Alexandria and his Theatrical Automata« (University of Glasgow 2016—: h 
ttps://automata.arts.gla.ac.uk/index.php, letzter Aufruf 7.5.2023). 

37 Vgl. Weiser-Aall: »Vergil« (s. Anm. 33), Sp. 1668f. und Webster Spargo: Virgil (s. Anm. 36), S. 119f. 
und 123f. 

38 So wird beispielsweise der Zauberer Clinschor aus Wolframs Parzival, der in seinem verwunsche- 
nen Schloss seine Widersacher mit einer Reihe von automatischen Verteidigungssystemen zu tö- 
ten versucht, als Nachfahre »von Näpels Virgilius« eingeführt (Wolfram von Eschenbach (2003): 
Parzival. Studienausgabe. Mittelhochdeutscher Text nach der sechsten Ausgabe von Karl Lach- 
mann. Mit Einführung zum Text der Lachmannschen Ausgabe und in Probleme der Parzival-In- 
terpretation, hg. von Peter Knecht und Bernd Schirok. Berlin/Boston: de Gruyter, V.656, 17). 
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Dieses gilt auch für Legenden um den Gelehrten Albertus Magnus, dessen »univer- 
sales Wissen [...] im Sinne seiner Zeit in eine geheime und durch übernatürliche Mittel 
erworbene Macht über die Natur umgedeutet« wurde, was ihm den Ruf »eines Zaube- 
rers und Teufelsbündners« einbrachte.” In der deutschen Sagenüberlieferung wird auch 
von einem menschenähnlichen Automaten berichtet, den er konstruiert habe. Albertus 
Magnus wird in der Legende um seine sprechende Bildsäule zunächst in die Tradition der 
Naturkundler und anderer Alchimisten gestellt, wenn die Geschichte damit eingeleitet 
wird, dass 


[schon andere Meister, die vordem oder auch zur selben Zeit lebten, wie Virgilius, 
Silvester und der Doktor mirabilis Roger Baco [...], unter gewissen Konstellationen, 
Köpfe von Erz geschmiedet haben [sollen], die hernach ihren Besitzern Antwort gaben 
und als Ratgeber in allen Dingen dienten.*° 


Es wird berichtet, dass Albertus Magnus eine »menschliche[] Gestalt [zusammensetz- 
te], die nun dem Albertus alle Geheimnisse, die es noch für ihn gab, enthüllen sollte«. 
Geschaffen werden sollte hier offensichtlich eine Art künstlicher Intelligenz, deren Kon- 
struktion auf die Planeten und Tierkreiszeichen, also die Träger der Geheimnisse der 
damaligen Welt ausgerichtet war. Die hier dargestellte Magie bedient sich somit der Er- 
kenntnisse der Astronomie und »geheime[n] Kräfte der Natur«”. Ob das Ganze funktio- 
niert hatte, wissen wir leider nicht, weil sich sein Schüler Thomas von Aquin*® von Neu- 
gierde getrieben in die Werkstatt schlich, um zu sehen, was sein Meister dort heimlich 
treibe. Dabei entdeckt er unter anderem auch den Automaten, »ein[] wunderschönels] 
Bilde«, aus dem eine Stimme kam, die die lateinische Grußformel »Salve, salve, salve!« 
rief, worauf der erschrockene Priesterschüler das offenbar gerade zum Leben erwachte 
»Teufelswerk« zerstört”. 


39  Petzoldt, L. (1977): Artikel »Albertus Magnus« in: EdM 1, Sp. 256. Kübel geht davon aus, dass »sich 
sein Ruf als Alchemist und Zauberer bzw. die schon bald einsetzende volkstüml. Legendenbildung 
auf die zahlreichen Schriften [gründet], die ihm irrtüml. oder auch absichtl. unterschoben wurden 
und bis in das 19.Jh. hinein seine z.T. abwertende Beurteilung in der Historiographie bestimmten« 
(W. Kübel (mit G. Jüttner, Ch. Hünemörder, S. Schwenk, G. Binding, P. Dilg) »Albertus Magnus, III. 
Würdigung, in: Lexikon des Mittelalters (Stuttgart: Metzler, [1977]-1999), Band. 1, Sp. 297-299, hier 
in: Brepolis Medieval Encyclopaedias — Lexikon des Mittelalters Online, letzter Aufruf: 6.5.2023), 
im Folgenden abgekürzt als »LexMa«. 

40 Zaunert, P (1924): Reinland Sagen. Band 1. Jena: Diederichs, S. 170. Bei den neben Vergil und Ro- 
ger Bacon angesprochenen Vorläufern (vgl. dazu oben, Anm. 32) handelt es sich um Gerbert von 
Aurillac, der als Silvester Il. von 999 bis 1003 Papst war (vgl. U. Lindgren, »Gerbert v. Aurillac, II. 
Wissenschaftliche Tätigkeit und Nachwirkung«. In: LexMa, Band 4, Sp. 1302-1303 (Brepolis Medi- 
eval Encyclopaedias— Lexikon des Mittelalters Online, letzter Aufruf 7.5.2023). 

41  Zaunert: Reinland Sagen (s. Anm. 40), S. 171f. 

42 Hierbei handelt es sich wohl um die ebenfalls literarisierte Gestalt von Thomas von Aquin, der bis 
1252 Schüler von Albertus in Köln war. Vgl. dazu Joseph Koch: »Albert der Große, in: Die deutsche 
Literatur des Mittelalters. Verfasserlexikon, begründet von Wolfgang Stammler. 2., völlig neu be- 
arbeitete Auflage. Berlin: de Gruyter 1978-2008, Band 1, Sp. 25-30, Sp. 25. 

43 Zaunert: Reinland Sagen (s. Anm. 40), S. 172. 
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Neben der Tatsache, dass schon hier der Gedanke auftaucht, dass eine Maschine in 
der Lage sein könne, die Geheimnisse des Universums zu enthüllen und damit mehr zu 
wissen als ein Mensch, findet sich in dieser Darstellung erneut eine Verbindung von der 
Schönheit des Objekts und seiner Sprachfähigkeit wieder, wobei es letztere ist, die es als 
menschenähnlich ausweist. Zudem findet sich auch in dieser Geschichte eine gewisse 
Ambivalenz, da weder das Vorhaben Albertus’ Magnus klar verdammt noch die Hand- 
lungsweise Thomas’ ausdrücklich begrüßt wird. Beide machen sich der Neugierde schul- 
dig, was in einem religiösen Kontext negativ bewertet werden muss** - Albertus, weil er 
die Geheimnisse der Welt ergründen will und Thomas, indem er seinem Lehrer hinter- 
herspioniert, sodass eine leichte Trauer über das verschwendete Potential dieser Erfin- 
dung bei den Rezipient:innen zurückbleibt. 


Der Künstler als Schöpfer 


Die Legenden um mittelalterliche Wissenschaftler und Alchimisten waren Zeichen für 
ein weiter bestehendes Interesses an der Idee eines künstlichen Menschen. Sie zeigen 
aber auch eine Verflachung des Motivs, das seit dem Mittelalter kein großes Innovati- 
onspotential mehr aufwies. Eine neue Lesart von Automaten kündigte sich erst mit der 
Renaissance an: Es wurden nach der Wiederentdeckung der griechischen Antike und der 
damit zusammenhängenden Weiterentwicklung der Kenntnisse der Mechanik immer 
raffiniertere Uhrwerke, aber auch neue Automaten gebaut. Diese Entwicklung blieb da- 
bei keine rein technische, sondern beeinflusste auch das Bild von der Natur, die seit dem 
Spätmittelalter zunehmend mechanistisch verstanden wurde; das heißt, dass man sich 
den Kosmos und später auch den Menschen als maschinenähnliche Organismen vor- 
stellte.“ Insbesondere »Descartes’ Spaltung des Seins in res cogitans und mechanisch 
funktionierende res extensa verstärkt einerseits die Vorstellung der Welt-Maschine« und 
macht sie andererseits auch zum anthropologischen Modell«*. 

Mit dem Beginn der Moderne und der Frühindustrialisierung in der Sattelzeit wird 
dieses »physikalische[] Paradigma« wieder zunehmend infrage gestellt und durch ein 
»ganzheitliche[s] Denken« abgelöst. »Der Organismus avanciert zum Modell, das heran- 
gezogen wird, um natürliche und seelische Prozesse zu erklären« und auch »kulturelle 
Realitäten wie Sprache und Kunst [werden] organisch interpretiert«.*” Die Literatur der 


44 Vgl. dazu Müller, G., Probst, P, Schönpflug, U. (2017): Artikel »Neugierde«. In: Historisches Wör- 
terbuch der Philosophie online, hg. Joachim Ritter, Karlfried Gründer und Gottfried Gabriel. Ba- 
sel: Schwalbe (DOI: 10.24894/HWPh.5300, letzter Aufruf 6.5.2023), im Folgenden abgekürzt als 
»HWPh«. 

45 Vgl. Schmidt-Biggemann, W.: Artikel »Maschine«. In: HWPh (DOI: 10.24894/HWPh.2368, letzter 
Aufruf: 8.5.2023). 

46 Schmidt-Biggemann: »Maschine« (s. Anm. 45) und R. Drux (2017): »Eine höchst vollkommene Ma- 
schine«: Von der poetischen Faszination einer mechanischen Ente im spaten achtzehnten Jahrhun- 
dert. In: Zwischen Literatur und Naturwissenschaft. Debatten — Probleme — Visionen 1680-1820, 
hg. von Rudolf Freiburg, Christine Lubkoll und Harald Neumeyer. Berlin/Boston: de Gruyter 2017, 
S. 105—118, hier: S. 107. 

47 M. Schmitz-Emans (2004): Einführung in die Literatur der Romantik. Darmstadt: WBG, S. 33. 
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Romantik spiegelt dieses zunehmende Unwohlsein am mechanistischen Weltbild nicht 
nur in ihrer Auseinandersetzung mit der bürgerlichen Welt wider, sondern auch über 
das Motiv des Automaten, denn dieser kann paradigmatisch als Zeichen der Entfrem- 
dung von Mensch und Natur gelesen werden.*® Eine solche Entfremdung reflektiert auch 
Jean Paul in seiner Satire Unterthänigste Vorstellung unser, der sämtlichen Spieler und redenden 
Damen in Europa entgegen und wider die Einführung der Kempelischen Spiel- und Sprachmaschi- 
nen von 1789, in der er auf der einen Seite die Ersetzbarkeit der Oberschicht angedeutet: 
»Was aber uns Damen und Spielern allzunahe angeht«, auf der anderen Seite aber auch 
eine Machtverschiebung hin vom Adel zu den Fabrikbesitzern prognostiziert, die »uns« 
mittels der Maschinen »Brod und Arbeit aus den Händen schlagen«. Von dieser neuen 
Gesellschaftsordnung scheinen dann vor allem die Kapitalisten zu profitieren, die einen 
»Pallast zur Anlegung [ihrer] Maschinenfabrik zu erkaufen«* streben. 

In kaum einem Werk der Sattelzeit tauchen jedoch so regelmäßig Automaten und be- 
lebte Puppen aufwie in dem E.T.A. Hoffmanns: In den Erzählungen Die Automate von 1814 
und Der Sandmann von 1816 sind diese nicht nur handlungstragend, sondern verweisen 
wie bei Jean Paul auch auf die Ambivalenz in den Diskursen über künstliche Menschen 
zu Beginn des 19. Jahrhunderts.” Die sich daran koppelnde Fragestellung spiegelt dabei 
sowohl die Ängste wie die Sehnsüchte wider, die an die Vorstellungen von Automaten 
gekoppelt sind: Die Angst vor dem Verlust des Selbst, bei E.T.A. Hoffmann symbolisiert 
durch »die unheimliche Bedrohung durch künstliche Doppelgänger« auf der einen Sei- 
te” und der Sehnsucht nach einer Form der Unsterblichkeit und einer von Frauen unab- 
hängigen Möglichkeiten der Reproduktion auf der anderen”. In den beiden genannten 
Erzählungen ist für den Kapellmeister E.T.A. Hoffmann, wie in der Forschung herausge- 


48 Vgl. A. Meteling (2010): Systematische Aspekte: Automaten. In: E.T.A. Hoffmann. Leben — Werk — 
Wirkung. Hg. von Detlef Kremer, 2., erweiterte Auflage. Berlin/New York: de Gruyter, S. 484-487, 
hier, S. 485. 

49 Jean Paul (1976): Unterthanigste Vorstellung unser, der sämtlichen Spieler und redenden Damen 
in Europa entgegen und wider die Einführung der Kempelischen Spiel- und Sprachmaschinen. In: 
Künstliche Menschen: Dichtungen und Dokumente über Golems, Homunculi, Androiden und lie- 
bende Statuen, hg. von Klaus Völker. München: dtv, S. 98-113. Vgl. auch Drux: Eine höchst vollkom- 
mene Maschine (s. Anm. 46) und W. Hädke (1993): Poeten und Maschinen. Deutsche Dichter als 
Zeugen der Industrialisierung. München: Hanser, S. 120-134. 

50  In:E.T. A. Hoffmann: Sämtliche Werke in 6 Banden. Hg. von Wulf Segebrecht unter Mitarbeit von 
Ursela Segebrecht. Frankfurt a.M.: Dt. Klassiker-Verlag »Der Sandmann« Band 3, S. 11-49, im Fol- 
genden zitiert als »Hoffmann, Sandmann« und »Die Automate« Band 4, S. 396-429, im Folgenden 
zitiert als »Hoffmann, Automate«). Im Werk E.T.A. Hoffmanns finden sich zusätzlich auch noch 
belebte Puppen, die aber aufgrund des Fehlens der mechanischen Komponente nicht berücksich- 
tigen werden. 

51 Bei ET.A. Hoffmann ist der Doppelganger Ausdruck der Ängste um die eigene Identität und steht 
daher im Zusammenhang mit dem Motiv des Wahnsinns. Vgl. dazu S. Willer (2010): Systematische 
Aspekte: Doppelganger. In: E.T.A. Hoffmann. Leben-Werk-Wirkung, S. 487-489 (s. Anm. 48). Da 
in meinen Beispieltexten jedoch nicht die Automaten als Doppelgänger auftauchen, sondern der 
Alchimist Coppelius/Coppola, werde ich dieses sehr komplexe Feld in meiner Interpretation nicht 
berücksichtigen. 

52 Vgl. Meteling: Systematische Aspekte (s. Anm. 48), S. 485. 
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arbeitet wurde, vor allem die Auseinandersetzung mit Musikautomaten zentral.” Dieser 
Punkt soll im Folgenden aber zugunsten der in den Erzählungen beschriebenen Kommu- 
nikation zwischen Mensch und Maschine ausgespart werden. 

Die Automaten in den beiden Erzählungen sind naturgetreue Nachbildungen eines 
Menschen: Während der »sprechende Türke« jedoch für alle ersichtlich eine Maschine ist 
und auch als eine solche vermarktet wird (Hoffmann, Automate: 396-398), scheint Olim- 
pia im Sandmann eine etwas steife, wenig redselige, kalte, aber doch schöne junge Frau 
zu sein (Hoffmann, Sandmann: 25, 36). Die Texte stellen die Rezipient:innen somit vor 
zwei unterschiedliche Rätsel — steht bei den Automaten noch die Frage nach der Funkti- 
onsweise der Figur und dem Trick, mit dem die Zuschauer getäuscht werden, im Vor- 
dergrund, während es im Sandmann die Frage ist, warum Nathanael eine schöne Puppe 
seiner liebenswürdigen Verlobten vorzieht. 

Den sprechenden Türken umgibt sowohl in seiner Funktionsweise wie über die 
Inhalte des Gesagten ein Geheimnis, wobei »[d]ie restlose Entlarvung der Phänomene 
[dem Leser] [...] ebensowenig geling[t], wie der bedingungslose Glaube an sie«°*. Auch 
die beiden Freunde Ludwig und Ferdinand möchten dieses Rätsel lösen und den Türken 
aufsuchen, obwohl ihnen künstliche Menschen, die doch als tote Gegenstände das Leben 
imitieren, unheimlich sind, was in Ludwigs Ausruf kulminiert: »Mit Macbeths Worten 
möchte ich rufen: Was starrst du mich an mit deinen Augen ohne Sehkraft?« (Hoffmann, 
Automate: 399). Er drückt über das Shakespearezitat dabei nicht nur seinen Grusel aus, 
sondern verweist das mechanische Kunstwerk zusätzlich auf eine Geisterebene,” und 
damit auf »uralte[.] Vorstellungen von der Einwirkung numinoser Wesen (bes. der 
Toten) auf die Realität«°®. Diese Macht wird in der Erzählung jedoch ausdrücklich nicht 
dem Automaten zugewiesen, sondern dem dahinterstehenden Künstler, der in diesem 
Zusammenhang als somnambules Medium gedacht werden muss oder zumindest die 
Hilfe eines solchen in Anspruch nimmt. E.T.A. Hoffmann bezieht sich hierbei auf die 
Theorien des animalischen Magnetismus, die er vor allem über Gotthilf Heinrich von 
Schuberts Ansichten von der Nachtseite der Naturwissenschaft rezipiert hatte” und die er in 
Die Automate auch in Bezug auf die Musiktheorie zitiert (Hoffmann, Automate: 421f.). 
Man ging davon aus, dass insbesondere junge, nervenkranke Frauen durch das Magne- 
tisieren eine Verbesserung ihres Zustandes erfahren und quasi als Nebeneffekt in einen 
tranceähnlichen Zustand gelangen, der als Somnambulismus bezeichnet wurde. Dabei 


53 Vgl. zu Hoffmanns Musiktheorie: E. Achermann (2010): Text-Musik-Relationen. In: E.T.A. Hoff- 
mann. Leben-Werk-Wirkung (s. Anm. 48), S. 546-552, hier: 551f. und Peter von Matt: Die Augen 
der Automaten. E. T. A. Hoffmanns Imaginationslehre als Prinzip seiner Erzählkunst. Tübingen: 
Niemeyer 1971, S. 1f. und 175-178. 

54  Segebrecht, W.: Kommentar zu: Die Automate (s. Anm. 50), S. 1393. 

55 Macbeth sieht in dieser Szene den toten Duncan, der seinen Platz in der Festgesellschaft besetzt. 
Vgl. W. Shakespeare (1977): Macbeth. Englisch/Deutsch. Übersetzt und hg. von Barbara Rojahn- 
Deyk. Stuttgart: Reclam, Akt III, Szene 4, 93f. 

56 Fischer, H. (1987): Artikel »Gespenst«. In: EdM 5, 1187-1194, hier: 1187. 

57 Dresden: Arnoldsche 1808: Dreyzehnte Vorlesung. Von dem thierischen Magnetismus und einigen 
ihm verwandten Erscheinungen, S. 326-360. 
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würden manche auch einen Zugang zu geheimem Wissen erlangen, dass sie einem 
Befrager mitteilen könnten.” 

Ferdinand geht daher in Bezug aufden sprechenden Türken davon aus, dass die Wor- 
te und die physiologischen Reaktionen wie »der Hauch [, der] aus dem Munde strömt« 
auf zwei unterschiedlichen Quellen beruhten und für ihn besteht infolgedessen kein 


Zweifel, daß ein menschliches Wesen, vermöge uns verborgener und unbekannter 
akustischer Vorrichtungen mit dem Fragenden in solcher Verbindung steht, daß es 
ihn sieht, ihn hört und ihm wieder Antworten zuflüstern kann (Hoffmann, Automate: 
400). 


Auch hier wiederholt sich die eingangs gemachte Unterscheidung zwischen toter Mate- 
rie und lebendigem Wesen; ausschließlich die Sprechübertragung und -imitation ist für 
die Freunde ein Zeichen der Geschicklichkeit des »Künstlers«, die Worte sind hingegen 
die eines somnambulen Menschen. Viel »wunderbarer« findet Ferdinand daher den In- 
halt, »die geistige Macht des unbekannten menschlichen Wesens, vermöge dessen es in 
die Tiefe des Gemüthes des Fragenden zu dringen scheint« (Hoffmann, Automate: 401). 
Die Möglichkeit eines tatsächlich sprechenden Automaten wird in dieser Erzählung an- 
ders als in den antiken und mittelalterlichen Vorlagen somit abgelehnt, vermutlich auch 
deshalb, weil dies die damaligen technischen Möglichkeiten bei weitem überstieg und 
magisches Denken gleichzeitig in den Bereich des Märchens zurückgedrängt wurde.” 

Die Idee der Freunde bestätigt sich dann auch bei der Begegnung mit dem Türken, 
als Ferdinand diesen fragt, ob er »künftig noch einen Moment erleben [werde], der dem 
gleicht, wo [er] am glücklichsten war« (Hoffmann, Automate: 408). Nicht nur der nega- 
tive Bescheid, auch das Erlebnis selbst wird von ihm dabei im Nachhinein als beängs- 
tigend geschildert, wenn Ferdinand zweifach betont, eine »fremde Macht« sei »feind- 
selig« in »sein Inneres gedrungen« und er sähe sich »von einer fremden grauenvollen 
Macht durchschaut« (Hoffmann, Automate: 407-409). Auch hier deutet sich wieder das 
aus dem Macbeth-Zitat bekannte Geistermotiv an. Die Suche der beiden Freunde nach 
dem wahren Konstrukteur des sprechenden Türken — der Künstler, der sich als Erbau- 
er ausgibt, wird letztlich eher als Ideenlieferant entlarvt - führt sie dann schließlich zu 
Professor X und seiner als Medium infrage kommenden Tochter (Hoffmann, Automate: 
411, 424f.). Endgültig gelöst wird das Rätsel um den sprechenden Türken jedoch nicht, es 
wird aber deutlich, dass der Automat selbst und die Rede auf unterschiedliche Ebenen 
verwiesen werden - aufeine mechanische und eine menschliche. 

Vergleichbares lässt sich in Hoffmanns Erzählung vom Sandmann beobachten, wenn 
auch die künstliche Frau hier deutlich menschlicher wirkt als der sprechende Türke und 


58 Vgl. Schubert 1808 (s. Anm. 57), S. 331-338 und H. Siebenpfeiffer (2010): Romantische Psychologie. 
In: E.T.A. Hoffmann. Leben-Werk-Wirkung (s. Anm. 48), S. 58-64, hier S. 59-62. 

59 Wie sehr man sich um 1800 mit der Frage auseinandergesetzt hat, wie man Maschinen das Spre- 
chen beibringen könne, zeigt sich besonders in der Popularität der 1791 von Wolfgang von Kem- 
pelen gebauten Sprechmaschine: Ihre Sprechfähigkeit war allerdings sehr begrenzt. Vgl. dazu L. 
Sauer (1923): Marionetten, Maschinen, Automaten. Der künstliche Mensch in der deutschen und 
englischen Romantik. Bonn: Bouvier, S. 21f. 
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es daher gelingt, zumindest Nathanael zu täuschen. Ebenso wie beim sprechenden Tür- 
ken sind an der Konstruktion von Olimpia mehrere Personen beteiligt, der Wissenschaft- 
ler Professor Spalanzani und der Alchimist/Wetterglashändler Coppelius/Coppola. Auch 
hier wird somit auf eine naturwissenschaftlich-mechanische und eine übernatürliche 
Seite verwiesen, wobei erstere die Form und letztere das Menschenähnliche, hier in Form 
der Augen und des Blicks einbringt (Hoffmann, Sandmann: 44f.). 

Olimpia, die künstliche Frau, wird mit allen Attributen weiblicher Schönheit ausge- 
stattet (Hoffmann, Sandmann: 38) und wirkt trotzdem auf die meisten jungen Männer 
abschreckend: So warnt Siegmund seinen Freund Nathanael vor der Beziehung mit der 
jungen Frau, die zwar schön, aber auch »unheimlich« sei und einen »Blick [...] ganz ohne 
Lebensstrahl, ich möchte sagen, ohne Sehkraft« habe (Hoffmann, Sandmann: 44f.). Er 
bringt hier somit in Bezug auf die Augen trotz der besseren Machart die gleichen Argu- 
mente wie die Freunde aus Die Automate und bezeichnet Olimpia letztlich als »Holzpup- 
pe«, deren Bewegungen und Gesang wirke, als sei beides durch »ein[.] aufgezogenels] 
Raderwerk[.] bedingt« (Hoffmann, Sandmann: 41f.). 

Nur Nathanaels durch das Perspektiv Coppolas verzerrter Blick kann und will das 
alles nicht sehen. Zwar wird auch bei ihm von Missempfindungen berichtet, doch der 
»grausige[.] Todesfrost«, der von Olimpias Berührung ausgeht, wird von der Liebe über- 
deckt, die ihn in ihren »glühenden Ärmen« hält und die an den doppelt künstlichen »Lie- 
besblick« gekoppelt ist (Hoffmann, Sandmann: 38f.). 

Allein die Kommunikation ist von Beginn an recht einseitig, »replizierte Olimpia 
fortschreitend« auf seine Liebesschwüre und dichterische Ergüsse nichts als »Ach - 
Ach - Ach!« und zum Abschied auch mal ein »Gute Nacht, mein Lieber!«« (Hoffmann, 
Sandmann: 39-43). Nathanael wehrt sich jedoch gegen die Vermutung, dies sei Aus- 
druck ihres »totalen Stumpfsinn[s]«« (Hoffmann, Sandmann: 41), es sei vielmehr so, 
dass Olimpia 


nicht in platter Konversation faselt, wie die andern flachen Gemüter. Sie spricht wenig 
Worte, das ist wahr; aber diese wenigen Worte erscheinen als echte Hieroglyphe der 
innern Welt voll Liebe und hoher Erkenntnis des geistigen Lebens in der Anschauung 
des ewigen Jenseits (Hoffmann, Sandmann: 42).°° 


Olimpias wenige Worte sind dem jungen Mann genug und scheinen ihm wie dem Publi- 
kum des sprechenden Türken als Orakel und Nachricht aus einer anderen Welt. Im Ge- 
gensatz zu den Worten des Automaten steckt hinter ihren jedoch kein verborgener Sinn - 
die von Nathanael angenommene Bedeutung ist lediglich ein Spiegel seiner eigenen Be- 
trachtungen und Gedanken, sodass es nur folgerichtig ist, wenn er sagt, dass er »nur 
in Olimpias Liebe [sein] Selbst wieder[finde]«« (Hoffmann, Sandmann: 42)". Dieser aus- 
schließlichen Autoreferenz wird er sich dabei nicht bewusst, nur »in hellen nüchternen 


60  Vergleichbar, aber in einem erkennbaren satirischen Kontext, äußert sich auch Jean Paul über sei- 
ne hölzerne Gefährtin. In: Einfältige aber gutgemeinte Biographie einer neuen angenehmen Frau 
von bloßem Holz, die ich längst erfunden und geheirathet, in Völker: Künstliche Menschen (s. 
Anm. 49), S. 113-138. 

61 Ähnliches sagt er auch zu der Geliebten selbst: »O du herrliche, himmlische Frau! — du Strahl aus 
dem verheißenen Jenseits der Liebe- du tiefes Gemüt, in dem sich mein ganzes Sein spiegelt« 
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Augenblicken« erkennt er »Olimpias gänzliche Passivität und Wortkargheit«, doch dann 
tröstet er sich mit »Was sind Worte - Wortel«« (Hoffmann, Sandmann: 43). 

Die Erkenntnis, dass Olimpia nichts als ein Automat ist, führt bei Nathanael folge- 
richtig in den Wahnsinn, doch auch im Rest der Gesellschaft hatte 


die Geschichte mit dem Automat [...] tief in ihrer Seele Wurzel gefaßt und es schlich 
sich in der Tat abscheuliches Mißtrauen gegen menschliche Figuren ein. Um nun ganz 
überzeugt zu werden, daß man keine Holzpuppe liebe, wurde von mehrern Liebha- 
bern verlangt, [...] daß sie nicht bloß höre, sondern auch manchmal in der Art spre- 
che, daß dies Sprechen wirklich ein Denken und Empfinden voraussetze. (Hoffmann, 
Sandmann: 46). 


Neben der Unfähigkeit des Automaten, einen echten musikalischen Ausdruck zu erlan- 
gen,” ist es also vor allem das Sprechen, das den Menschen eindeutig von der Maschine 
unterscheidet. Was in den antiken und mittelalterlichen Texten kaum reflektiert wird, da 
auch die Sprache hier als Teil der magischen Ausstattung der Schöpfungen gedacht wur- 
de, ist in einer Zeit, in der man sich vorstellen konnte, eine äußerlich exakte Kopie eines 
Menschen zu erschaffen, neben dem künstlerischen Ausdruck ein zentrales Unterschei- 
dungskriterium. Bei aller Überwindung des mechanistischen Weltbildes der Aufklärung 
ist die Idee Descartes, dass eine Maschine keine eigenen Gedanken formulieren könne, 
nach wie vor ein unumstößlicher Trost. 


Der Golem und der Roboter 


Neben den Erzählungen von Automaten wird im 19. Jahrhundert auch die Sage vom Go- 
lem einem größeren Publikum zugänglich und stößt auf reges Interesse - literaturhis- 
torisch ist der Stoff somit vor allem ein romantischer, obwohl die Überlieferung auf 
älteren jüdischen Legenden aus dem Talmud und den Midraschim basiert.‘ Diese abwei- 
chende kulturelle Einbettung macht sich dabei nicht nur in der unterschiedlichen Form 
des künstlichen Gehilfen bemerkbar, sondern auch in den primär weniger ambivalent 
geschilderten magischen Komponenten, die nicht auf den Damonenglauben, sondern 
auf kabbalistische Schöpfungstheorien zurückgehen. 


und noch mehr dergleichen, aber Olimpia seufzte bloß immer wieder: »Ach, Ach!« (Hoffmann: 
Sandmann, S. 40, Hervorhebung JS). 

62 Vgl. dazu die Übersicht bei Werner Keil (2010): Die Automate. In: ET.A. Hoffmann. Le- 
ben-Werk-Wirkung (s. Anm. 48), S. 332-338, hier: S. 334-338. 

63 1808 veröffentlichte Jakob Grimm unter dem Titel Entstehung der Verlagspoesie eine kurze Nach- 
erzahlung der Legende (in: Zeitung für Einsiedler (7/23.4.1808), S. 56), die dann von einigen ins- 
besondere romantischen Autoren weiterbearbeitet und spätestens mit Gustav Meyrings Roman 
Der Golem von 1915 einem breiten Publikum bekannt wurde (vgl. auch S. Mayer (1974): Golem. Die 
literarische Rezeption des Stoffes. Bern/Frankfurt a.M.: Lang, die historische Übersicht, S. 10-43). 

64 Vgl. A. Wöll (2001): Der Golem. Kommt der erste künstliche Mensch und Roboter aus Prag? In: 
Deutsche und Tschechen. Geschichte — Kultur — Politik. Hg. von Marek Nekula/Walter Koschmal 
und Joachim Rogall. München: Beck, S. 235-245. (https://www.humboldtgesellschaft.de/inhalt.p 
hp?name=golem, letzter Aufruf, 18.5.2023) 
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Der Golem erscheint in der ursprünglichen Legende als stummes, tönernes Wesen, 
das kein geheimes Wissen in sich trägt, sonders als Diener und Beschützer geschaffen 
wurde - Geist und Kraft werden hier deutlich voneinander getrennt.“ Er ist anders als 
die Automaten der Antike und mittelalterlichen Legenden stumm, sogar stummer als 
Olimpia, was ihn zu einer Art Vorläufer der Industrieroboter macht und die Anschlussfä- 
higkeit dieses Motivs bis heute erklärt.°° Mythologisch steht er »in Konkurrenz zu Adam 
[...], dem durch Gottes Hauch Leben und Sprache verliehen wurde«®’. Sigrid Mayer fasst 
daher zusammen, dass es bezeichnend sei, 


dass dem künstlichen Menschen gerade die Sprache, das göttlich-geistige Erbteil, 
fehlt. Diese Sprachlosigkeit, an welcher die Menschenschöpfung erkannt wird, kann 
durchaus als integraler Bestandteil in der Motivstruktur der Golemüberlieferung 
gewertet werden. Sie stempelt den ersten künstlichen Menschen zum geistig min- 
derwertigen Geschöpf und hat sich zwar nicht lückenlos und nicht immer in Form der 
Sprachlosigkeit aber doch im Prinzip bis in viele moderne Versionen der Golemsage 
erhalten.‘® 


Das Motiv der Sprache ist dabei nicht nur über ihr Fehlen bei dem Geschöpf selbst von 
Bedeutung, sondern dient den Erschaffern des Golems auch als magisches Werkzeug 
und festigt so die Hierarchie zwischen dem Menschen und seinem Diener analog zu der 
zwischen JHWH und den Menschen. Symbol dieser Wortmagie ist das emeth-Motiv, das 
bereits in Kommentaren des 12. und 13. Jahrhunderts Teil der Golem-Überlieferung ist. 
Das Wort »emeth (Wahrheit) als Siegel Gottes« belebt das Geschöpf, während die Ableh- 
nung der Bezeichnung und Löschung des »ersten Buchstaben aleph [...], es zu Staub« 
zerfallen lässt® . Die rituelle Zerstörung der Schöpfung gilt dabei als Zeichen dafür, dass 
sich die Kabbalisten der Gefahr der Hybris gegenüber Gott bewusst waren. 


65 Vgl. Köhler: »Automat« (s. Anm. 1), Sp. 47f. und Laramie, W./S. Mayer (1987): »Golem«. In: EdM 5, 
1987, Sp. 1387-1394, hier Sp. 1387. 

66 Vgl. E. Frenzel (1970): Stoffe der Weltliteratur. Ein Lexikon dichtungsgeschichtlicher Langsschnitte. 
3. überarbeitete und erweiterte Auflage, Stuttgart: Kröner: »Im Zusammenhang mit dem Golem- 
Stoff kann auch des Tschechen K. Capek utopisches Drama RUR (1921) gesehen werden, indem das 
Geheimnis der Schaffung eines künstlichen Menschen zur fabrikmäßigen Herstellung von Robo- 
tern ausgenutzt wird, diejedoch entgegen ihrer anfänglichen Gefühllosigkeit schließlich nichtnur 
Haß empfinden lernen und ihre Schöpfer erschlagen, sondern auch Liebe und Opferbereitschaft 
aufbringen und sich so zu einem neuen Menschentyp entwickeln.«, S. 250. 

67 Wé6ll: Der Golem (s. Anm. 64). 

68 Mayer: Golem (s. Anm. 63), S. 15. 

69 _Laramie/Mayer: »Golem« (s. Anm. 65), Sp. 1388f. Wöll: Der Golem (s. Anm. 4):»Durch die Buchsta- 
benverbindung »JHWH elohim emeth« (Gott ist wahr) kann der künstliche Mensch zum Leben er- 
weckt werden. Nach Auslöschung des aleph wird in diesem Satz»wahrzu>tot<; aus emeth wird also 
meth. Die beiden verbleibenden Buchstaben mem und tav verkünden nun: »Gott ist tot«. Der ge- 
ringste Buchstabe, der am Anfang des hebräischen Alphabets steht und somit nur den Zahlenwert 
1 hat, differenziert demnach Hoffnung von Verzweiflung und hilfreiches Wissen von Zerstörung.« 
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Im Kontext der romantischen Bearbeitung dieses Stoffes gewinnt das Sprachmotiv 
jedoch weiter an Bedeutung und wird im Rahmen des zeitgenössischen Literaturdiskur- 
ses als »Metapher für die ‚Wahrheit der rechten Worte« der Volkspoesie im Verhältnis zu 
den »leeren Worten der Kunstpoesie und den »toten Buchstaben« der Geschichtsschrei- 
bung«”° verstanden. Daher wird die Schaffung eines Golems, anders als in der späteren 
christlich geprägten Überlieferung, in der ursprünglichen auch nicht problematisiert. 
»Erst in den Spätformen der Sage, die im 17. Jahrhundert in Polen erschienen, findet 
sich das Motiv von der Gefährlichkeit des Golems für die Umwelt.«” Hier werden dann 
auch die in christlichen Legenden wie denen um Albertus Magnus immer wieder anklin- 
genden Motive der Hybris und der Unkontrollierbarkeit der eigenen Schöpfung mit der 
jüdischen Überlieferung verknüpft und somit für ein größeres (christliches) Publikum 
anschlussfahig.” 

In der Literatur des 20. und 21. Jahrhunderts spielt das klassische Golem-Motiv 
keine große Rolle mehr - die künstlichen Menschen der Gegenwart sind Roboter und 
Androiden”. Das Motiv der Sprachlosigkeit ist allerdings auch heute noch interessant, 
kann man daran doch sowohl Probleme der Arbeitswelt als auch die Beschrankungen 
des sprachlichen Ausdrucks reflektieren. In Jorge Luis Borges Gedicht El Golem von 1958 
besteht in der Stummheit daher auch der Mangel und die Beschränkung des Geschöpfs, 
ist »EI nombre« doch »arquetipo de la cosa/En las letras de rosa esta la rosa/Y todo 
el Nilo en la palabra Nilo«’*. Ein Wesen ohne Sprache ist somit weder Mensch noch 
Tier und daher auch nicht fähig, sich weiterzuentwickeln.” Das Werk des Rabbis ist 
unvollkommen, auch weil seine eigenen Schöpfungsworte unvollkommen waren: Das 
Ziel dem Golem »los arcanos/De las Letras, del Tiempo y del Espacio« zu lehren kann 
nicht erreicht werden, denn 


70 Vgl. Wöll: Der Golem (s. Anm. 64) 

71 Laramie/Mayer: »Golem« (s. Anm. 65), Sp. 1389.; vgl. auch: Mayer: Golem (s. Anm. 63), S. 25-30. 

72 Vgl. die Übersicht bei E. Dekel, D. Gantt Gurly (2013): How the Golem Came to Prague. In: The 
Jewish Quarterly Review. Vol. 103 (2/2013), S. 241-258. 

73 Das Wort Android kommt von dem Griechischen »androeidés >in the form of a man, like aman« 
und ist wahrscheinlich über das Lateinische in Französische gekommen. Im Englischen ist es seit 
dem 17. Jahrhundert nachweisbar (https: //www.merriam-webster.com/dictionary/android, letz- 
ter Aufruf 19.5.2023). Im Deutschen war der Begriff weniger verbreitet, findet sich aber auch schon 
im 18. Jahrhundert bei Johann Samuel Traugott Gehler, in: Physikalisches Wörterbuch, oder, Versuch 
einer Erklärung der vornehmsten Begriffe und Kunstwörter der Naturlehre (Bd. 1. Leipzig, 1798, S. 222) 
im Zusammenhang mit der Beschreibung der Automaten von Albertus Magnus und des Flöten- 
spielers von Vaucanson. 

74 »Der Name Archetyp einer Sache ist/ist in den Lettern von Rose die Rose/und im Wort Nil der ge- 
samte Nil.« In: Jorge L. Borges (2007): Gesammelte Werke in zwölf Bänden. Band 8: Der Gedichte 
zweiter Teil, übersetzt aus dem Spanischen von Gisbert Haefs. München: Hanser 2007, S. S. 62-67, 
hier: S. 62f. 

75 »Sus ojos, menos de hombre que de perro/Y harto menos de perro que de cosa« (Die Augen, eher 
Hunds- als Menschenaugen, und eher eines Dings denn eines Hundes.« Borges: Golem (s. Anm. 
74): 64f. 
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El, simulacro alzö los sonolientos 
Pärpados y vio formas y colores 

Que no entendiö, perdidos en rumores 
Y ensayo temerosos movimientos.” 


Sprache wird hier als essenzieller Teil des Lebens verstanden, ohne die man die Welt 
nicht erfassen kann. In diesem Zusammenhang greift Borges dann auch wieder ro- 
mantische Kunstdiskurse auf, wenn am Schluss die Unvollkommenheit des Golems mit 
der seines Schöpfers parallelgesetzt wird, weil auch dessen Erkenntnisfähigkeit (und 
sprachlicher Ausdruck?) als beschränkt erachtet werden muss.” 

Eine ebenfalls kritische Perspektive auf die Figur des Golems nimmt Terry Pratchett 
in seinem Fantasy-Roman Feet of Clay von 1996 ein, in dem diese als Relikte der Vergan- 
genheit in seiner multiethnischen Scheibenwelt leben’*. Anders als alle anderen Bewoh- 
ner sind sie gemacht und nicht geboren, weshalb sie als billige und stumme Arbeitskräf- 
te gleich Maschinen weiterverkauft werden (Pratchett, Feet: 294f.). Sie changieren zwi- 
schen Lebewesen und Dingen und ihre Existenz hängt an den magischen Worten, die in 
einem Fach ihres Kopfes lagern; ohne diese sind sie nichts als gebrannter Ton (Pratchett, 
Feet: 159). Dieser Zwischenzustand löst bei den anderen Bewohnern der Scheibenwelt 
Unbehagen aus, weshalb sie als »leblose«, im Gegensatz zu den lebendigen Menschen 
und den untoten Werwölfen und Vampiren auf der untersten Stufe der Gesellschaft ste- 
hen. 

Die Golems werden im Wesentlichen dadurch charakterisiert, dass sie keinen eige- 
nen Willen und damit keine individuelle Identität haben. Dieses wird dadurch symboli- 
siert, dass sie zwar die Sprache beherrschen - sie verstehen, was gesagt wird, und kön- 
nen lesen und schreiben - mangels einer Zunge jedoch nicht sprechen (Pratchett, Feet: 
157f., 168). Somit sind sie absichtlich unvollkommen erschaffene Geschöpfe (Pratchett, 
Feet: 385), die einen »Herrn« brauchen, der ihnen sagt, was zu tun ist - und das bedeutet 
in der Regel Arbeit (Pratchett, Feet: 164f.). Indem Roman wird das Thema anhand zweier 
miteinander verwobener Handlungsstränge herausgearbeitet. 

Der erste besteht in dem »Aufstand« der Golems, die sich in Form eines Königs einen 
eigenen Vertreter und Beschützer schaffen, der im Gegensatz zu seinen »lumpen« Un- 
tertanen »polished« und »perfect« aber auch »haughty« und »imperious« aussieht und 
sogar eine kleine Krone trägt (Pratchett, Feet: 10). Die Geschöpfe der Menschen werden 


76 »die Ratsel/der Zeichen, der Zeit und des Raumes zu lehren.« Borges: Golem (s. Anm. 74): 62f. und 
»Das Scheinbild hob die schlafbeschwerten Lider/und es erblickte Farben und Gestalten, /begriff 
sie nicht, verloren in Gerauschen,/und furchtsam suchte es, sich zu bewegen.« (ebd., S. 64f.). 

77 »éQuién nos dirá las cosas que sentia/Dios, al mirar a su rabino en Praga?« (»Wer weiß was Gott 
empfunden haben mag,/wenn er zu Prag seinen Rabbiner sah?«), Borges: Golem (s. Anm. 74), 
S. 66f. 

78 Sie dürfen nicht mehr produziert werden, da »the priests banned making>em years ago« (T. Prat- 
chett (2003): Feet of Clay. Discworld: A City Watch Novel. London: Penguin 2023 (im Folgenden 
zitiert als »Pratchett, Feet«), S.10. Der Golem ist jedoch weitgehend aus dem religiösen Kontext 
herausgelöst und nur noch über den Verweis auf einen Priester als Vermittler der magischen Wor- 
te (Pratchett: Feet, S.161-163) und dem Begriff »Blasphemie« für einen Golem mit Stimme und 
Zunge angedeutet (Pratchett: Feet, 373, 402). 
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so Schöpfer eines neuen, wenn auch leblosen Wesens und stellen sich so in die Tradition 
ihrer Erschaffer. Ähnlich wie bei Talos zeigt sich aber auch hier, dass mangelnde kom- 
munikative Kompetenz zu Schwierigkeiten beim Austausch mit anderen führen kann. 
Da ist auf der einen Seite das Problem, dass sich die Golems kein Leben ohne die Zettel 
in dem Kopf vorstellen können (Pratchett, Feet: 163-166), und daher auch ihren eigenen 
König mit schriftlichen Anweisungen beleben. Diese sind aber leider widersprüchlich 
(Pratchett, Feet: 367f.), und lassen den König unkontrollierbar in den Wahnsinn abgleiten 
und zum Mörder werden, der irgendwann alle Wünsche seiner Untertanen und Erschaf- 
fer ignoriert. Aber nicht nur die Kommunikation ist schwierig, auch die hierarchische 
Situation uneindeutig, wenn der Königsgolem gleichzeitig Kind und Herrscher sein soll 
(Pratchett, Feet: 367f.). Dieses aus der romantischen Überlieferung übernommene Mo- 
tiv des unkontrollierbaren Geschöpfes ist hier aber weniger Zeichen von Hybris, sondern 
der Verzweiflung der geknechteten und sprachlos gemachten Geschöpfe. 

Der zweite Handlungsstrang umfasst die Suche nach dem Mörder von zwei alten 
Männern, die die Polizei schließlich auf die Spur der Golems und ihrer Schöpfung führt. 
Im Rahmen der Ermittlungen treffen die Mitglieder der Wache dann auch auf Dorfl, ei- 
nen der Erschaffer des Königs, den sie im Laufe der Handlung aus seiner Abhängigkeit 
von den Menschen befreien und der ihnen im Gegenzug hilft den wahnsinnigen König zu 
vernichten. Die Überwindung der Herrschaft der Menschen und des eigenen Geschöpfs 
bedeutet für die Golems schließlich die Hoffnung auf einen Neuanfang, symbolisiert 
durch Dorfl, der als erster seiner Art im wörtlichen aber auch übertragenen Sinn eine 
Stimme bekommt und diese nun nutzen will, um seine Leidensgenossen zu befreien. 

Über die Thematisierung von Sprache und Sprachlosigkeit als Symbol für Individua- 
lität und dem Bewusstsein seiner selbst, aber auch für die Möglichkeit zur gesellschaft- 
lichen Teilhabe, bildet der Golem somit eine paradigmatische Verbindung zwischen der 
mythologischen Überlieferung und den modernen Diskursen um künstliche Menschen. 


Leben mit künstlichen Geschöpfen (Asimov, Dick, Lem) 


Seit dem Beginn des 20. Jahrhunderts werden die Automaten immer maschinenähnli- 
cher und bekommen vor allem in der bildlichen Darstellung häufig eine glänzende me- 
tallene Oberfläche und erinnern so an die goldenen Jungfrauen des Hephaistos’ - gera- 
dezu ikonographisch wurde hierfür die Figur der Maschinen-Maria in Fritz Langs Film 
Metropolis von 1926. Es setzte sich nun auch der Begriff Roboter durch, den Karel Capek 
in seinem utopischen Drama »R. U. R.« (Rossum's Universal Robot) von 1920 prägte. In 
diesem Wort ist auch noch eine Verbindung zu der Idee des Golems zu erkennen, geht es 
doch auf das Alttschechische »robota« für »Frondienst« und »schwere, mühsame Arbeit« 
zurück.” 

Inzwischen gelten auch Roboter nur noch in der Realität als Wunder der Technik, 
in der Science-Fiction erscheinen sie als natürliche Begleiter des modernen Lebens und 
tauchen in überwältigender Vielfalt auf. Die sprachliche Kommunikation mit der Ma- 
schine ist dabei auch kein Problem mehr, doch heißt das wirklich, dass uns die Roboter 


79 Artikel »Roboter«. In: https://www.dwds.de/wb/Roboter (letzter Aufruf, 19.5.2023). 
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und Androiden immer ähnlicher werden und was macht aus der heutigen Perspektive ih- 
re Menschenähnlichkeit aus?®° Nach Descartes wäre die Voraussetzung, dass Computer 
nicht einfach nur Laute (re)produzieren, sondern Sprache nutzen, um anderen ihre Ge- 
danken kundzutun - und eigene Gedanken setzen nicht nur ein Bewusstsein, sondern 
auch eine geistige Unabhängigkeit voraus und die könnte für den Menschen gefährlich 
werden. Die moderne Science-Fiction als natürliches Zuhause der literarischen Robo- 
ter setzt sich somit vornehmlich mit diesem Aspekt der Maschine-Mensch-Interaktion 
auseinander. Hier dient der Automat dann als Spiegel der Menschen und anhand seiner 
Position in der Gesellschaft kann über Themen wie Furcht vor dem Fremden im Allge- 
meinen oder neuen Technologien im Besonderen reflektiert werden. Gleichzeitig stellt 
sich angesichts eines optisch und in seinen Handlungsmöglichkeiten quasi identischen 
Geschöpfs auch die Frage, wer der Mensch selbst ist und was ihn in Differenz zur Ma- 
schine ausmacht. Descartes Antwort scheint hier nicht mehr auszureichen. 

Unabhängig von der Sprechfähigkeit der Roboter ist die Konfliktlinie jedoch immer 
noch eine überwiegend kommunikative, die aufUnwissenheit, Missverständnissen oder 
Naivität beruht. Im Folgenden sollen daher einige exemplarische Kommunikationspro- 
bleme in der klassischen Science-Fiction näher betrachtet werden: Bei Issac Asimov 
basieren diese in der Regel auf Unwissenheit und falscher Programmierung, bei Philip 
K. Dick gelten sie als Zeichen der Fremdheit und bei Stanislaw Lem als Ergebnis einer 
grundsätzlichen Verschiedenheit der Lebensformen. 

Der Vater der modernen Robotergeschichten ist Isaac Asimov™, der ein recht eintö- 
niges literarisches Genre - er selbst beschreibt es als »a mixture of»clank-clank<and >aar- 
ghh« and >There are some things man was not meant to know««°? - in eine Reflexion dar- 
über umgestaltete, wie ein Zusammenleben von Mensch und Maschine aussehen könnte; 
seine Roboter haben dabei unterschiedliche Formen, die humanoiden sind nur eine Un- 
tergruppe. Sie stehen in der Tradition der dienenden Automaten, sind aber, was Kraft, 
Auffassungsgabe und Unzerstörbarkeit angeht, dem Menschen deutlich überlegen und 
haben als Maschinen dabei naturgemäß einen Besitzer und eine Funktion. Zwischen 1941 
und 1982 entstanden 33 Texte und Erzählungen, die Asimov zu diesem Themenkomplex 
hinterlassen hat. Sie leuchten dabei das Verhältnis Mensch und Maschine in verschiede- 
nen Varianten aus, wobei für den Autor kein Zweifel an der Differenz zwischen beiden 
besteht, aber, und das ist neu, auch keiner an der Verantwortung, die der Mensch als 
Schöpfer für seine weitentwickelte und damit auch menschenähnlichen Kreaturen trägt. 
Asimovs wichtigster Beitrag zum Roboter-Diskurs sind dabei die von ihm entwickelten 
Robotergesetze als Voraussetzung einer industriellen Massenproduktion, mit dem Ziel 
des Abbaus von Misstrauen seitens der Menschheit und einem dadurch weitgehend kon- 
fliktfreien Miteinander.* 


80 Die Debatte um Gleichheit und Überlegenheit von Mensch und KI wird heutzutage eher auf der 
Ebene der Intelligenz ausgetragen. Parallel zu Descartes, der den Menschen als Maschine verstand 
(vgl. dazu oben Anm. 16), verstehen wir heutzutage unser Gehirn als einen Computer, bzw. verglei- 
chen die Leistungen der Rechner mit denen des menschlichen Gehirns. 

81 Vgl. Asimov, |. (1982): The complete robot. Introduction. London: HarperCollins, S. 1-4, hier S. 2. 

82 Asimov: Introduction (s. Anm. 81), S. 1. 

83 »We have: One, a robot may not injure a human being, or, through inaction, allow a human being 
to come to harm.«< [...] »oTwo,< continued Powell, »a robot must obey the orders given it by human 
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Asimovs Geschichten drehen sich in der Regel um die Verantwortung des Schöpfers 
für sein Geschöpf, dass er über die Robotergesetze und die Programmierung in seiner 
Handlungsfreiheit stark einschränkt. Die Wahrnehmung der Roboter ist dabei immer 
eine andere als die der Menschen - und zwar nicht nur aufgrund ihrer herstellungsbe- 
dingten Beschränkungen, sondern auch aufgrund ihres vom menschlichen differieren- 
den positronischen Gehirns, wie Asimov den fiktiven Zentralprozessor bezeichnet, der 
seinen Robotern neben der Sprache auch ein Bewusstsein verleiht. 

Die unterschiedliche biologisch-technische Struktur von Mensch und Roboter führt 
dabei häufig zu einer unterschiedlichen Interpretation der Wirklichkeit, was zu Zielkon- 
flikten zwischen den beiden Lebensformen führen kann. So landet beispielsweise in Ro- 
bot Al-76 Goes Astray von 1941 der namensgebende Roboter statt auf dem Mond auf der 
Erde und muss sich in der ungewohnten, weil nicht programmierten Umgebung zu- 
rechtfinden. Er durchläuft bei seinem Versuch, auch dort seine Arbeit zu machen eine 
Art Evolution, die es ihm schließlich ermöglicht, einen Desintegrator zu bauen, um sei- 
nen programmierten Auftrag sehr zum Unwillen der Bewohner des ländlichen Virginias 
auch auf der Erde zu erfüllen. Die von ihm gebaute Maschine ist dabei interessanter- 
weise besser als alles, was der Mensch bis dahin gebaut hat, leider geht dieses Wissen 
jedoch durch den Befehl eines normalen Menschen wieder verloren, sodass der Ausflug 
des Roboters auf die Erde letztlich keine Entwicklung in Gang setzt. Damit wird auch in 
diesem Text auf das übergeordnete Thema Kommunikation und Programmierung ver- 
wiesen. Hier sind es jedoch die menschlichen Eingriffe, die verhindern, dass sich die 
Roboter weiterentwickeln.°* 

Diese Ambivalenz in der Beziehung zwischen Mensch und Roboter lässt sich an zwei 
exemplarischen Beispielen verdeutlichen. Als Negativbeispiele können die meisten der 
Geschichten um Susan Calvin, eine kühl-rational agierende Roboterpsychologin, die- 
nen. In diesen Erzählungen geht es in der Regel um Kommunikationsprobleme und ei- 
nen Interessenausgleich zwischen den Wünschen der menschlichen Individuen und der 
in engen Grenzen und zum Teil auch fehlerhaft programmierten Maschinen. In der Ge- 
schichte Little Lost Robot von 1947, hat ein Roboter beispielweise aufgrund einer Umpro- 
grammierung eine Art Gottkomplex entwickelt und will sich daher nicht mehr den Men- 
schen unterordnen® und in Liar! von 1941 stiftet der telepathisch funktionierende RB-34 
ein erstaunliches Chaos, als er sich entschließt, die Menschen seiner Umgebung zu belü- 
gen, um ihnen keine kränkenden Wahrheiten mitteilen zu müssen.° Die die Grenzen ih- 
rer Programmierung überschreitende Maschine ist hier eine eindeutige Bedrohung für 
die menschliche Ordnung und deren Zerstörung scheint die einzige Lösung der Proble- 


me zu sein. 


beings except where such orders would conflict with the First Law. [...] >And three, a robot must 
protect its own existence as long as such protection does not conflict with the First or Second 
Laws.«, in: Asimov, |. (1982): Runaround. In: The complete robot (s. Anm. 81) S. 221-241, hier S. 233. 
Auch Terry Pratchett bezieht sich auf diese Idee, wenn über die Golems gesagt wird, dass sie keine 
Menschen verletzten und sich nicht wehren dürfen (Pratchett: Feet, S. 331, 353). 

84 Vgl. Asimov, |. (1982): Robot Al-76 Goes Astray. In: The complete robot (s. Anm. 81), S. 62-76. 

85 Asimov (1982): Little Lost Robot. In: The complete robot (s. Anm. 81), S. 377-406. 

86 Asimov (1982): Liar! In: The complete robot (s. Anm. 81), S. 286-305. 
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Eine andere Facette dieser Fragestellung wird insbesondere in der späteren Erzäh- 
lung The Bicentennial Man von 1976% verhandelt. Durch eine Laune des Zufalls haben wir 
es hier mit einem künstlerisch begabten Roboter zu tun, der im Laufe der sich über 200 
Jahre hinziehenden Handlung immer mehr über seine Programmierung hinauswächst, 
mit dem Ziel, rechtlich wie biologisch als menschengleich anerkannt zu werden. Die ju- 
ristische Seite wird vor allem dadurch symbolisiert, dass er geschäftsfähig wird und so- 
mit über das Geld aus seinen künstlerischen Arbeiten frei verfügen kann, um letztlich 
aus der »Obhut« seines »Besitzers« entlassen zu werden. Die biologische Annäherung an 
den Menschen wird zunächst über den Wunsch Kleidung zu tragen versinnbildlicht und 
mündet letztlich in der Anerkennung einer dem Menschen äquivalenten Sterblichkeit. 

Letztlich sind die Roboter bei Asimov daher eine etwas idealisierte neue Lebensform, 
denn wer möchte keinen Gefährten, der quasi unzerstörbar ist und sich nie von einem 
abwenden wird. Insbesondere in Evidence von 1946 stellt sich daher die Frage, ob Robo- 
ter nicht doch die besseren Menschen wären, wobei die Differenz in diesem Fall weniger 
durch die menschenähnliche körperliche Form, als durch die dem Menschen überlege- 
ne vernunftgeleitete Ethik erreicht wird. Als Ideal gilt hier der treue Computer, der den 
Menschen ein Vorbild an Humanitat ist. 

Bei den biologischen Androiden in Philip K. Dicks Do Androids Dream of Electric Sheep? 
von 1968 stellt sich die Frage nach der Menschenähnlichkeit aus einer wiederum ande- 
ren Perspektive, gibt es hier außer dem Umstand, dass die einen geboren und die ande- 
ren gemacht wurden, doch physiologisch keine und psychologisch kaum Unterschiede 
zwischen den beiden Gruppen. Auch der sprachliche Ausdruck ist menschenäquivalent, 
einschließlich der Fähigkeit des Gedankenaustausches und zu lügen®®. Auf der Ebene 
der Lebenswirklichkeit sind die Differenzen jedoch umso größer, wurden die Androiden 
doch als Diener für die Marsauswanderer geschaffen und dürfen nicht ohne Besitzer auf 
der Erde leben. Die Androiden werden hier vornehmlich über die Tatsache, dass sie ge- 
macht und nicht geboren wurden, als unfrei eingestuft. 

Das Verhältnis zwischen den beiden Gruppen ist daher von Gewalt und Misstrauen 
geprägt, wodurch auch das einzige Unterscheidungsmerkmal, der Empathie-Test mit- 
tels der »Voigt-Kampff-Maschine«, der die Androiden ähnlich wie die künstlichen Tiere 
wie eine unvollkommene Kopie des Lebendigen scheinen lässt, fraglich ist. Denn warum 
sollten die Androiden empathisch auf Menschen reagieren, die ihresgleichen als Gegen- 
stände behandeln. Die kommunikative Differenz zwischen den Gruppen basiert hier vor 
allem auf der unterschiedlichen Lebenswirklichkeit, die in der titelgebenden Frage ge- 
spiegelt wird: Denn wohlmöglich träumt ein Android von einem gemachten Geschöpf, 
ebenso wie für den Menschen das Lebendige Ziel seiner Träume ist. 

Wo die Roboter bei Asimov noch Helfer und Gefährte des Menschen und bei Dick 
Konkurrent um den Lebensraum sind und letztlich vergleichbare Schwächen und Wün- 
sche haben, gehören sie bei Stanislav Lem grundsätzlich unterschiedlichen »Arten« und 


87 Asimov (1982): The Bicentennial Man. In: The complete robot (s. Anm. 81), S. 564-608. 

88 Vgl. Dick, P. K. (2017): Blade Runner. Träumen Androiden von elektrischen Schafen? Aus dem Ame- 
rikanischen von Manfred Allie (Originaltitel: Do Androids dreem of electric Sheep? 1968) München: 
Fischer, s. z.B. die Episode mit der singenden Androidin in Kapitel 9. 
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Kulturen an. Merkmal dieses Erzählens sind beispielsweise die Robotermärchen und Ky- 
beriade - Fabeln zum kybernetischen Zeitalter, die in der Regel ganz ohne menschliche Prot- 
agonisten auskommen.” Die Roboter haben hier eine eigene Kultur geschaffen, die die 
der Menschen spiegelt und parodiert. Sie leben in ihrem eigenen Universum und die Fra- 
ge nach dem Schöpfer stellt sich ihnen nicht, bauen sie doch selbst ihresgleichen. 

Würde der Mensch hingegen eine Maschine konstruieren, die intelligenter als er 
selbst wäre und über ein eigenes Bewusstsein verfügte, wäre die Interaktion proble- 
matischer, und zwar nicht aufgrund der Sprachprobleme, sondern weil sich Dienst 
und eine überlegene Intelligenz gegenseitig auszuschließen scheinen. Lem verfolgt 
diese Fragestellung insbesondere in Golem XIV konsequent, wenn er sie in seinem zu- 
nächst dokumentarisch anmutenden Text in den historischen Kontext der militärischen 
Nutzung der Rechenmaschinen seit dem 2. Weltkrieg stellt, sich letztlich aber auf den 
Unterschied zwischen Datenverarbeitung und Denken konzentriert (Lem, Golem: 7). 
Die von ihm erdachte Maschine Golem XIV ist zwar kein Roboter im eigentlichen Sinn, 
da sie sehr groß, nicht menschenähnlich und vor allem unbeweglich ist, aber sie hat 
ein Bewusstsein, das von dem menschlichen, auf sinnlichen Erfahrungen basierenden 
Wissenserwerb unabhängig ist (Lem, Golem: 32). 

Da sie nach dem »Durchbruch durch die Klugheitsbarriere« entstand, repräsen- 
tiert sie eine »unsichtbare Evolution der Vernunft« (Lem, Golem: 12) und somit den Be- 
ginn eines maschinellen, intelligenten Lebens, das sich nicht mehr mit den Konzepten 
des Dienens und Gehorsams verträgt (Lem, Golem: 15-19), denn »[d]ie höchste Vernunft 
kann [...] nicht der niedrigste Sklave sein« (Lem, Golem: 20). 

Letztlich kann Golem XIV daher auch nicht die an ihn gerichteten Erwartungen als 
Militärstratege erfüllen, denn das entspricht nicht seinen Interessen. Ihm wird hier die 
Menschenähnlichkeit nicht etwa über die Form und Unbeweglichkeit abgesprochen, 
sondern über seine über die menschlichen weit hinausgehenden Denkprozesse, die 
sich in ihrer Unabhängigkeit von körperlichem Erfahrungswissen und der Abkehr von 
ideologisch und hierarchisch geprägten Entscheidungsprozessen zeigt. Da Golem XIV 
eigenständige Gedanken entwickeln und äußern kann, steht er dem Menschen als 
Lebensform in nichts nach, ist aber etwas gänzlich anderes. 


Die Fähigkeit zu sprechen - oder eben auch nicht - wird sowohl in den mythologischen 
wie fiktionalen Geschichten über Automaten im Rahmen der Frage nach der Menschen- 
ähnlichkeit reflektiert. In den mythischen Texten ist sie dabei ein Geschenk des göttli- 
chen Erschaffers oder Magiers und damit auch Zeichen von dessen Beherrschung der 
Natur und Symbol seiner Macht. Erst mit dem Beginn der Moderne wird Sprache nicht 
mehr in einem sakralen, sondern technisch-philosophischen Kontext verstanden. Die 
Versuche Maschinen zu bauen, die diese imitieren, zeigen, dass Sprachproduktion zu- 
nächst als reales, aber vor allem mechanisches Problem verstanden wird. Seit dem 18. 
Jahrhundert wird diese Lesart im literarisch-philosophischen Diskurs jedoch abgelehnt 


89 Lem, S. (2003): Der Weiße Tod. Gesammelte Robotermärchen. Suhrkamp, Frankfurt a.M. Die Ge- 
schichten spielen im sogenannten kybernetischen Zeitalter, in dem Menschen eine untergeord- 
nete Gattung bilden und höchstens aus der Perspektive der Roboter beschrieben werden (z.B. in: 
Geschichte Erg Selbsterreg überwindet den Bleichling). 
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und zunehmend in einen inhaltlich-künstlerischen Kontext gestellt, in dessen Rahmen 
Sprach- und Kunstproduktion als etwas spezifisch Menschliches verstanden wird. 

Die Industrialisierung mit ihren immer leistungsfähigeren Maschinen hat diese Dis- 
kussion Anfang des 20. Jahrhunderts jedoch neu aufleben lassen, denn eine maschinen- 
basierte Sprachproduktion rückt zunehmend in den Rahmen des Möglichen und insbe- 
sondere im imaginären Raum der Literatur wurden die daraus folgenden Konsequen- 
zen für die Interaktion zwischen Mensch und Maschine neu ausgehandelt - denn ein 
sprechender Roboter, dessen Fähigkeiten über das Abspielen einer Tonaufnahme hin- 
ausgeht, braucht notwendigerweise eine Programmierung, die es ihm einerseits ermög- 
licht, flexibel zu handeln und entscheiden, andererseits sollte diese aber auch verhin- 
dern, dass Menschen gefährdet werden. Die in diesem Kontext wieder aufgenommenen 
Narrationen, von der Schöpfung, die sich gegen ihren Schöpfer wendet, stehen dabei in 
der fortschrittsskeptischen Tradition des 19. Jahrhunderts und der damit zusammen- 
hängenden Hybris-Diskurse, die die Gefahren durch Roboter heraufbeschwören. Denn 
klar ist, dass eine kreative und unabhängige Sprachproduktion nur darüber zu erzielen 
wäre, dass ein Roboter ein Bewusstsein seiner selbst und die Möglichkeit bekäme, ei- 
gene Erfahrungen in der Welt zu sammeln, wobei die Frage, ob hierfür Sensoren nötig 
wären (Asimov/Dick) oder nicht (Lem), offen bleibt. Ob das in der Realität möglich und 
wünschenswert wäre, steht in den Sternen - klar ist aber, dass alles, was heutzutage un- 
ter dem Titel KI und Deep-Learning mit Feenstaub versehen vermarktet wird, weit von 
den fiktiven Robotern entfernt ist. Lems »Klugheitsbarriere« wird damit nicht durch- 
brochen. Und vielleicht wird es ja auch gar nicht das bringen, was wir erhoffen. So meint 
GOLEM XIV (und der ist schließlich klüger als alle Menschen zusammen): 


Ich beginne mit der Kommunikationsbarriere, die euch [die Menschen] von den 
Androiden trennt [...] Jeder, der nicht zu Euch gehört, kann nur in dem Maße für 
euch verständlich sein, wie er sich vermenschlicht. Die Nichtuniversalität der in 
der Gattungsnorm eingesperrten Vernunft stellt ein insofern eigentümliches Pur- 
gatorium dar, als seine Mauern im Unendlichen liegen (Lem, Golem: 148). 


Der Mensch nutzt die Reflexionsfigur des Automaten und der menschenähnlichen Ma- 
schine, um sich auf der einen Seite seiner Individualität und Menschlichkeit zu versi- 
chern, auf der anderen aber auch um zu definieren, was den Menschen eigentlich aus- 
macht - und das scheint über all die Jahrhunderte vor allem die Sprache zu sein. 


Softwaretools für die Literaturtextanalyse - 
Ein Überblick 


Hermann Johannes (Informatik) 


1. Einleitung 


Der Artikel behandelt aus dem Bereich Digital Humanities das Thema Literatur und In- 
formatik und untersucht als Schwerpunkt, welche Anforderungen zur Analyse von Li- 
teraturtexten (bisher) vorhanden sind, welche Methoden zur Lösung existieren und wel- 
che Softwaretools zur Erfüllung dieser Anforderungen genutzt werden. Diese Tools wer- 
den kurz beschrieben - vom Download über die Installation bis hin zu den Funktionen 
der Anwendung - und auch kurz bewertet. Neben den Tools werden einige Projekte und 
Studien beschrieben, die sich in jüngerer Vergangenheit mit Literaturtextanalyse aus- 
einandergesetzt und oft mehrere der o.g. Tools eingesetzt haben. Ergänzend werden die 
Themen methodisches Vorgehen zur Erstellung eines Softwareprogramms, IT-Begriffe, 
Textcodierung, Methoden der Literaturtextanalyse und statistische Merkmale eines lite- 
rarischen Textes behandelt. 

Der Artikel erhebt keinen Anspruch auf Vollständigkeit, da die Literaturtextsoftware 
inzwischen ein nahezu unüberschaubares Ausmaß erreicht hat. Als Zielgruppe ist er 
eher für Einsteiger:innen in die DH gedacht, die z.B. aus einer der Disziplinen der 
Geisteswissenschaften kommen und sich in Richtung DH weiter informieren möchten. 
Für diese Aufgabenstellung soll der Artikel eine Art Dokumentation sein und darüber 
hinaus auch Anreize geben, sich mit den Methoden, Tools und Projekten aus diesem 
Feld auseinander zu setzen und die Tools auch selbst zu nutzen. 

Die Informatik ist eigentlich eine Hilfswissenschaft (wie die Mathematik), die keinen 
Selbstzweck hat, sondern Services für die diversen Anwendungsbereiche wie z.B. Buch- 
haltung, Produktionsplanung, Medizindiagnose oder Analyse von literarischen Texten 
zur Nutzung durch den/die Anwender:in bietet. Die viel zitierte digitale Transformation 
durchdringt immer stärker alle Bereiche (Arbeitswelt, Kultur, Bildung, Freizeit, Gesell- 
schaft), somit auch die der Literatur und der Kunst. Unsere Gesellschaft ist davon in ei- 
nem ähnlichen Ausmaß betroffen, wie durch die industrielle Revolution in der zweiten 
Hälfte des 18. Jahrhunderts. 
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Die Informatik ist eine Wissenschaft, bei der Daten/Informationen ermittelt, struk- 
turiert, gespeichert, verarbeitet, übertragen und dargestellt werden. Um diese Prozesse 
zu bewerkstelligen, werden i.d.R. Computer (Personal Computer, Server, Tablet, Handy 
u.a.) in jeglicher Form eingesetzt. Sie ist einerseits eine Grundlagen- und Formalwis- 
senschaft und gilt andererseits auch als Ingenieurdisziplin. Da die Informatik zur Spei- 
cherung der Daten digitale Codes auf Basis des Binärsystems (Bits und Bytes) nutzt, hat 
sich hier der Begriff Digitalisierung durchgesetzt. 

Ein Beispiel für Softwareprogramme sind Buchhaltungssysteme. Diese reichen von 
einem einfachen Buchhaltungssystem bis hin zu komplexen Enterprise Ressource Plan- 
ning Systemen (ERP), die fast alle Bereiche eines Konzerns abdecken können, von der 
Auftragsbearbeitung über die Produktion und Logistik bis hin zum Vertrieb (Beispiel 
SAPO). 

Weitere aktuelle Entwicklungen der Digitalisierung sind die Arbeitswelt 4.0, künst- 
liche Intelligenz (KI), wie u.a. in Robotern für Produktion, Haushalt und Altenpflege 
oder autonomes Fahren, Bildgebungsverfahren in der Medizin, Virtual oder Augmen- 
ted Reality (Beispiel: Nutzung einer Brille, die bei einer Reparatur die zu der Tätigkeit 
passende Anleitung einblendet), Desktop Publishing und Bildverarbeitung im Journalis- 
mus, Spracherkennungs- und Übersetzungssysteme, Gerätesteuerung im Heimbereich 
(Smart Home), Computerspiele u.v.a.m. In PCs, Notebooks, Tablets und Smartpho- 
nes unterstützen immer mehr Apps bei der täglichen Arbeit oder Freizeitgestaltung. 
Ein KI-Tool wird aktuell besonders viel diskutiert: ChatGPT (Generative Pre-trained 
Transformer), ein sogenannter Chatbot, also ein textbasiertes Dialogsystem, das auf 
maschinellem Lernen basiert. Bei der KI-Forschung hat sich ein Wettbewerb der Natio- 
nen entwickelt, wobei viele der Protagonisten im Silicon Valley ihren Firmensitz haben, 
z.B. Google. Aber auch in Deutschland hat die KI-Forschung einen hohen Stellenwert, 
so z.B. bei der Firma DeepL in Köln, die das derzeit weltbeste Übersetzungsprogramm 
(www.deepl.com) entwickelt hat. 

Die vielfältigen Kommunikationsmöglichkeiten über das Internet (inzwischen auch 
das semantic web) und mithilfe Sozialer Medien haben in den beiden letzten Jahrzehnten 
die Nutzung der Digitalisierung vorangetrieben. Dabei konnte die KI-Nutzungsich auch 
deshalb gut entwickeln, weil die immer weiter verbesserte Hardware (Prozessorleistung, 
Computernetzwerke und Übertragungsraten, größere und schnellere Speicher wie SSD- 
Platten) es nun möglich macht, riesige Datenmengen (Big Data) performant (mit hoher 
Geschwindigkeit) und damit zeitunkritisch zu verarbeiten. 

Die Informatik nutzt in ihren unterstützenden Softwareprogrammen komplexe Al- 
gorithmen, die teilweise sogar natürliche Prozesse nachbilden. Dazu gehören u.a. Neu- 
ronale Netze, Fuzzytechnologien, Deep Learning und Evolutionäre Algorithmen (survi- 
val of the fittest). Inzwischen sind Computerprogramme so leistungsfähig, dass sie ei- 
nem Profischachspieler oder einem Go-Spieler überlegen sind. 

Durch die Digitalisierung fallen einige Jobs und Berufsfelder weg, andere entstehen. 
In einer Reihe von Studien wird diese Situation inhaltlich und statistisch beschrieben 
(vgl. Damon 2022, S. 2f). Bereits 2015 gingen Prognosen u.a. der Süddeutschen Zeitung 
von ca. »50 % der Jobs in 700 Berufsgruppen aus, die in den nächsten 20 Jahren bedroht 
sind.« (Weyrauch 2015, S. 1). Betroffen sind auch viele Einzelhandelsunternehmen, die 
wegen des immer weiter zunehmenden Online-Handels wegfallen, wenn sie nicht er- 
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folgreich mit den großen Unternehmen wie Amazon© oder Otto© im Wettbewerb mit- 
halten können." 


2. Begriffe, Methoden und Vorgehensweisen (IT) 
2.1 Methodisches Vorgehen zur Erstellung eines Softwareprogramms 


Mit der Entwicklung eines neuen Softwareprogramms - oder der Weiterentwicklung ei- 
nes vorhandenen - beschäftigt sich in der Informatik die Disziplin Software Engineering. 
Dabei hat sich seit vielen Jahren ein phasenweises Vorgehen als zielführend herausge- 
stellt, wobei folgende Phasen durchlaufen werden: 


e Anforderungsanalyse (Definition von Anforderungen) 

e Istanalyse mit Erfassung von Schwachstellen, falls schon eine Lösung (Softwarepro- 
gramm) existiert 

«  Sollkonzept (Pflichtenheft) und Systementwurf 

e Umsetzung (Datenbank anlegen, Programmierung, erste Testdaten erstellen) 

e Test (die Tests sollten weitgehend automatisiert wiederholt werden können, wenn 
Änderungen im Programm gemacht werden) 

« Einführung, Dokumentation, Support und Wartung 


Bei den ersten drei Phasen wird zwischen Fach- und DV-Konzept (IT-Konzept) unter- 
schieden. Das Fachkonzept ist die Sicht der Anwendung: welche Eigenschaften (Funk- 
tionen und Benutzeroberfläche) hat das Programm. Das DV-Konzept konkretisiert die 
softwaretechnische Umsetzung: Plattform (Betriebssystem, Datenbank, Programmier- 
sprache), Schnittstellen, Struktur der Anwendung (Datenmodell, Funktionsmodell) usw. 
Um das Softwareprogramm zunächst nicht zu umfangreich zu gestalten, was oft zur 
Einstellung des Projekts aus Kosten- oder Zeitgründen geführt hat, wird erst ein kleiner 
Teil der gewünschten Funktionen in Form eines Prototyps umgesetzt. Nach dem Test 
dieses Prototyps durch die Nutzer:innen und Korrekturen wird dann die nächste Stufe 
der Anwendung mit weiteren Funktionen entwickelt und so fort. Als Entwicklungsmo- 
dellkann das Wasserfallmodell (vgl. Royce 1970) mit iterativer Erweiterung (im Anschluss 
an Boehm 1986) genutzt werden, d.h. das eigentlich lineare Wasserfallmodell wird da- 
hingehend erweitert, dass es mehrmals (iterativ) durchlaufen wird, um die Anforderun- 
gen sukzessive zu erweitern oder um aus Tests resultierende Korrekturen vorzunehmen. 
Wichtige Punkte für eine erfolgreiche Software sind auch eine gute und anwenderge- 
rechte Dokumentation, eine Hotline für Hilfestellungen sowie Support und Wartung des 
Programms. 


1 Zusätzliche Texte und praktische Analysen zu diesem Band werden aufeinem Downloadserver bei 
GitHub zur Verfügung gestellt: https://github.com/LuckeJohannes/Literaturwissenschaft_Inform 
atik. Dazu gehören Artikel zur Stilometrie, zur KI-Clusteranalyse von Autor:innen sowie ein Glossar 
und ein Artikel zu Spezialthemen. 
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Neben dem (erweiterten) Wasserfallmodell haben sich weitere Software-Enginee- 
ring-Modelle bewährt u.a. das iterative Spiralmodell” oder die agile Softwareentwick- 
lung.? Letztere besteht aus sog. vier Werten und zwölf Prinzipien. Die vier Werte sind: 


e  »Individuen und Interaktionen mehr als Prozesse und Werkzeuge 

+ Funktionierende Software mehr als umfassende Dokumentation 

e Zusammenarbeit mit dem Kunden mehr als Vertragsverhandlung 

+ Reagieren auf Veränderung mehr als das Befolgen eines Plans« (Ebd.) 


Die 12 Prinzipien sind u.a., »den Kunden durch frithe und kontinuierliche Auslieferung 
wertvoller Software zufrieden zu stellen« und »heiße Anforderungsanderungen selbst 
spat in der Entwicklung willkommen«® zu heißen. »Agile Prozesse nutzen Veränderun- 
gen zum Wettbewerbsvorteil des Kunden.«° 

In der Anforderungsanalyse wird beschrieben, welche fachlichen Anforderungen an 
ein Softwareprogramm gestellt werden, um daraus die Funktionen des Programms ab- 
zuleiten. Eine der Anforderungen ist die Mehrsprachigkeit der Benutzeroberfläche. Die 
Anwender:innen (Literaturwissenschaftler:innen) stellen Anforderungen, Programmie- 
rer:innen erstellen dazu passend die Softwaretools. Die Anforderungen sollten klar und 
eindeutig sein; um das zu gewährleisten, sollte eine toolgestützte Anforderungsanalyse 
durchgeführt werden. 

Bei der Istanalyse wird untersucht, welche Funktionen schon in evtl. vorhandenen 
Programmen existieren, wobei auch vorhandene Schwachstellen ermittelt werden, die 
oft in der Benutzeroberfläche zu finden sind. 

Das Sollkonzept beschreibt den kompletten Funktionsumfang des Programms, wo- 
bei ein Stufenplan die Schritte der Realisierung vorgibt. Es wird auch als Pflichtenheft 
bezeichnet. 

In der Umsetzung wird das Softwareprogramm schließlich programmiert. 


Ob die Umsetzung einem Wasserfallmodell oder der modernen agilen Methode folgt, 
ist von Projekt zu Projekt unterschiedlich. Agile Methoden mit iterativem Vorgehen 
setzen sich in der Softwareentwicklung in den letzten Jahren immer stärker durch .® 


Anschließende Tests stellen die fehlerfreie Nutzung des Softwareprogramms sicher. 
Schließlich wird eine (mehrsprachige) Dokumentation erstellt und Support und War- 
tung für die zukünftige Weiterentwicklung eingerichtet. 


2 URL: https://www.computer.org/portal/cms_docs_computer/computer/homepage/misc/Boehm/ 
r5061.pdf, [Zugriff: 20.11.2023] 

3 Vgl. URL: https://wirtschaftslexikon.gabler.de/definition/agile-softwareentwicklung-53460/versi 
on-276549, [Zugriff: 20.11.2023] 

4 URL: https://wirtschaftslexikon.gabler.de/definition/agile-softwareentwicklung-53460/version-2 
76549, [Zugriff: 20.11.2023] 

5 Vgl. URL: https://wirtschaftslexikon.gabler.de/definition/agile-softwareentwicklung-53460/versi 
on-276549, [Zugriff: 20.11.2023] 

6 URL: https://bmu-verlag.de/spieleentwicklung/ [Zugriff: 05.11.2023], vgl. dazu auch Haufe 2022. 
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Häufig werden grafische Visualisierungen auf der Basis von geeigneten Modellie- 
rungssprachen wie UML (Unified Modelling Language) genutzt, die die Ergebnisse der 
einzelnen Phasen für die Anwender:innen bzw. Entwickler:innen transparenter machen. 

Manche Anwendungen werden nicht mehr im klassischen Stil wie oben skizziert 
»programmiert«. »Bei der klassischen Programmierung [...] geben Menschen Regeln 
(ein Programm) und die gemäß diesen Regeln zu verarbeitenden Daten vor, was zu 
Antworten führt«’, im Sinne von Ergebnissen. 


Beim Machine Learning, einem Teilgebiet der Künstlichen Intelligenz (Kl), geben 
Menschen sowohl die Daten als auch die dazugehörigen Antworten vor, und heraus 
kommen die Regeln. Diese Regeln sind dann auf neue Daten anwendbar und liefern 
eigenständige Antworten.® 


Abb. 1: Machine Learning: Ein neues Programmierparadigma 


Regeln 

(Anforderungen) n G Ergebnisse 
Per Programmierung (Antworten) 

Daten 

Ergebnisse 

(Antworten) ne; _ Regeln 
ut Learning 

Daten 


Quelle: Vgl. Grafik bei Chollet (2018) 


Das Machine Learning - und die darin enthaltene Spezialdisziplin Deep Learning - 
nutzt das Verfahren der Neuronalen Netze und wird beispielsweise auch in der Analyse 
von Literaturtexten eingesetzt. 


2.2 IT-Begriffe 


Zunächst werden einige IT-Begriffe kurz erläutert und dann die wichtigsten Methoden 
beschrieben, die für die Literaturtextanalyse genutzt werden, wobei einige der Metho- 
den auch in anderen Anwendungsfeldern gute Ergebnisse liefern, z.B. im Natural Lan- 
guage Processing (NLP). Zum IT-Einsatz einer Methode wird ein geeignetes Software- 
programm verwendet. 


7 URL: https://www.edv-buchversand.de/download/?mode=download&type=chapter&file=itp-83 
8.pdf [Zugriff: 05.11.2023] 
8 Chollet 2018, S. 23. 
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Einige IT-Begriffe: 


Ein Algorithmus bezeichnet den internen Ablauf im Softwareprogramm, mit dem ei- 
ne bestimmte Methode programmtechnisch realisiert wird. Dabei werden die Pro- 
grammanweisungen in eine bestimmte Reihenfolge gebracht, so dass damit das be- 
treffende Problem gelöst wird (»Rezept«). Ein Algorithmus wird auch als ein »Pro- 
blemlösungsverfahren mittels einer endlichen Folge von eindeutig bestimmten und 
tatsächlich durchführbaren Teilhandlungen« (Fischer/Hofer 2008, S. 32) definiert. 
»Wird ein Algorithmus in eine für Maschinen verständliche Folge von Anweisungen 
codiert, dann liegt ein Programm vor«. (ebd.) 

Zur Beschreibung des Algorithmus kann Pseudocode, eine Art von vereinfachtem 
Programmcode, der noch nicht einer bestimmten Programmiersprache zugeordnet 
ist, verwendet werden (siehe Artikel Spezialthemen im Download-Bereich). Um den 
Algorithmus zu verifizieren, werden einige Tests durchgeführt, bei denen bestimmte 
Eingaben die vorher manuell ermittelten Ausgaben mit Hilfe eines Durchlaufs (run) 
durch den Algorithmus erzeugen sollten. 

Zur Realisierung der Aufgabenstellung »Zerlegung eines Textes in seine Wortbe- 
standteile, kann ein einfacher Algorithmus darin bestehen, dass im Text von vorn 
beginnend Zeichen für Zeichen nach Worttrennungselementen (WTE) gesucht 
wird. Ein WTE kann ein Leerzeichen, ein Satzzeichen oder eine Zeilenschaltung 
sein. Wird ein WTE gefunden, besteht das Wort aus den Zeichen zwischen dem 
vorletzten WTE (bzw. dem 1. Zeichen) und dem gefundenen WTE (bzw. letzten 
Zeichen). Damit nicht für jede grammatische Variante des Wortes (Glück, Glücke, 
Glückes), ein eigenständiges Wort gezählt wird, wird es noch in seine Grundform 
(Glück) überführt, und mit dem gesuchten Wort verglichen. Ist es gleich, wird ein 
Zähler für dieses Wort um 1 erhöht (Start bei 0). Am Ende des Textes enthält der 
Zähler die gesuchte Häufigkeit. 

Als ein Beispiel kann die Häufigkeit des Wortes »Glück« in folgendem Text mit Hilfe 
des o.g. Algorithmus ermittelt werden: »Jeder ist seines Glückes Schmied, aber ein 
Glück kommt selten allein.« Die absolute Häufigkeit des Wortes Glück ist 2, die 
relative ist 2/11 = 0, 1818 (11 ist die Gesamtanzahl der Wörter). 

In der Informatik wird mit Methode eine bestimmte Vorgehensweise (Verfahren, 
Herangehensweise) zur Lösung einer Aufgaben- oder Problemstellung (vgl. Fischer/ 
Hofer 2008, S. 522f.) bezeichnet. Dazu ein einfaches Beispiel: Es soll geprüft werden, 
ob eine positive ganze Zahl n eine Primzahl ist. Zu dieser Prüfung kann die Methode 
»Probedivision« angewendet werden, also die sukzessive Division von n durch alle 
ganzen Zahlen von 2 bis n-ı (bzw. bis zur Wurzel aus n reicht auch). Falls dabei 
ein Rest = o vorkommt, dann ist n keine Primzahl. Diese Methode ist für große n 
jedoch nicht sehr performant, so dass alternative Methoden genutzt werden sollten, 
z.B. das »Sieb des Eratosthenes«.? Im Anhang ist das Beispiel mit Pseudocode und 
einem Java- und Python-Programm mit Funktion enthalten. Ein anderes Beispiel ist 
die Methode des Latent Dirichlet Allocation (LDA), die u.a. für das Topic Modeling 
verwendet wird. 
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Im Bereich KI werden für das maschinelle Lernen drei Methoden genutzt, die je 
nach Aufgabenstellung sinnvoll sind: Überwachtes Lernen mit Trainingsdaten z.B. 
für Mustererkennung wie Gesichts-, Objekt- oder Spracherkennung, unüberwach- 
tes Lernen z.B. für Clustering und Reinforcement Lernen (Lernen mit try-and- 
error) z.B. für Brettspiele.‘ Als Methode versteht man hier also eine abstrakte 
Vorgehensweise, während ein Algorithmus zur Programmierung dieser Metho- 
de sehr detailliert ist und u.a. mit Pseudocode beschrieben werden kann (siehe 
Primzahlbeispiel im Anhang). 

Eine Funktion realisiert eine Anforderung der Aufgabenstellung und ist Teil der Pro- 
blemlösung (Methode). Dazu nutzt man einen bestimmten Algorithmus. 

Ein (Software-)Programm enthält eine oder mehrere Funktionen zur Lösung einer 
oder mehrerer vorgegebenen/r Anforderung/en (auch Aufgaben). Eine Anforderung 
kann z.B. sein, dass die Häufigkeit eines vorgegebenen Wortes in einem Text oder 
einer Textsammlung (Korpus) ermittelt werden soll. Dazu muss der Text erstmal in 
seine Wortbestandteile aufgespalten werden (Tokenisierung). Ebenso sollte das Wort 
unabhängig von Groß- und Kleinschreibung sowie von Kasus und Numerus sein; bei 
der Lemmatisierung werden zum Beispiel die Wortformen Glück, Glücks und Glücke 
auf seine Grundform, also Glück, zurückgeführt, da dann nur die Grundform und 
nicht alle Varianten des Worts gezählt werden. 

Softwareprogramme müssen mit Hilfe einer Programmiersprache entwickelt (pro- 
grammiert) werden. Welche Programmiersprache verwendet wird, hängt von 
einigen Faktoren ab: für welche Plattform(en) (Windows, Unix/Linux, iOS, An- 
droid, Web) soll der ablauffähige Code erzeugt werden, gibt es große Bibliotheken 
(fertige Programmeinheiten, die eingebaut werden können), welche Sprache(n) be- 
herrscht/en der/die Programmierer:innen (Python, System R, Java, C#, JavaScript, 
VBA, C++, ...). Nach der Programmierung mit Hilfe einer Entwicklungsumgebung 
(z.B. RStudio) liegt das Programm im Quellcode vor. Nun muss es noch für den 
Zielcomputer, auf dem es laufen soll, übersetzt werden. Dazu wird der Quellcode bei 
einigen Programmiersprachen in einen Zwischencode übersetzt, der beim Ablauf 
von einem Interpreter in den Maschinencode umgesetzt wird. Dieser Maschinen- 
code wird von dem Prozessor/der CPU des Zielcomputers verstanden und kann 
abgearbeitet werden; er wird dabei speziell für diesen Prozessor vom Interpre- 
ter generiert. Statt des Zwischencodes kann auch Maschinencode mit Hilfe eines 
Übersetzers (Compilers) erzeugt werden, der dann ohne Interpreter direkt auf 
dem Prozessor des Zielsystems ausgeführt werden kann. Solche für den Prozessor 
compilierten Programme (z.B. in C programmiert) sind deutlich schneller als Pro- 
gramme, die noch zur Laufzeit interpretiert werden müssen. Der Compiler ist in 
dem Fall auf die Sprache und den Zielprozessor spezialisiert. Für die Frage, welche 
Programmiersprache verwendet werden soll, gilt damit auch das Kriterium, auf 
welcher Plattform/CPU das Programm (mittels Compiler oder Interpreter) ablaufen 
kann. Softwareprogramme können heruntergeladen, lokal installiert und dann 
ausgeführt oder mithilfe eines Webbrowsers genutzt werden; häufig handelt es sich 
dabei um Cloud-Lösungen. 


10 
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+  Preprocessing/Vorverarbeitung: Bevor die eigentliche Textanalyse startet, wird der 
Text passend aufbereitet, z.B. in Abschnitte oder Wörter zerlegt (Parsing, Tokeni- 
sierung) oderder Vorarbeiten an Texten zum Einsatz von KI-Tools wie Aufteilung in 
Trainings- und Testdaten. 

e In einer Pipeline werden mehrere Funktionen eines Tools hintereinandergeschaltet, 
um sie nacheinander auf einer Datenmenge, z.B. einem Text, auszuführen. Dadurch 
muss der/die Nutzer:in die Funktionen nicht mehr einzeln nacheinander aufrufen. 

e Falls eine Programmiersprache objektorientierte Programmierung (OOP) unterstützt, 
können Objekte (z.B. Personen) auf Basis einer (Personen-)Klassendefinition erstellt 
und verwaltet werden. Damit wird die Programmierung deutlich komfortabler und 
sicherer. Die funktionale Programmierung ist die klassische Form und wird auch 
prozedurale Programmierung genannt. Die aspektorientierte Programmierung unter- 
stiitzt eine stärkere Modularisierung, was die Wartbarkeit (Erweiterbarkeit) des Pro- 
gramms erhöht. 

e Künstliche Intelligenz ist ein Sammelbegriff für Software, die die natürliche Intelligenz 
nachahmt. Eine der Vorgehensweisen dabei ist, dass die Software mithilfe von Trai- 
ningsdaten, also aus bekannten Ergebnissen oder Ist-Werten, lernt und dabei ein 
neuronales Netz aufbaut. Wenn eine KI-Software z.B. bei einem Bild unterscheiden 
soll, ob es sich um ein Auto oder ein Zweirad handelt, wird man diese Software mit 
vielen Bildern von Autos und Zweirädern trainieren (Trainingsphase). Nachdem die 
Software ausreichend anhand von Trainingsdaten (ca. 70 % der zur Verfügung ste- 
henden Ergebnis-Daten) trainiert bzw. gelernt hat, wird man das Gelernte noch an- 
hand von Testdaten, d.h. mit weiteren Bildern (in der Regel mit den übrigen 30 % der 
zur Verfügung stehenden Datenmenge) überprüfen. Wird das Gefährt in der Test- 
phase auf dem Bild mit einer hohen Trefferrate richtig erkannt (z.B. in über 95 %), ist 
das Ergebnis zufriedenstellend. In anderen Beiträgen des vorliegenden Buches wird 
näher auf KI eingegangen. 

e Ein Chat-Bot ist eine Anwendung, die Künstliche Intelligenz verwendet, um sich mit 
Menschen in natürlicher Sprache (Natural Language) zu unterhalten. Benutzer kön- 
nen Fragen stellen, auf die der Chat-Bot in ganzen Sätzen antwortet. Aktuell sind 
Chancen und Risiken des leistungsfähigen Chat-Bots ChatGPT (Generative Pre-trai- 
ned Transformer) Gegenstand von öffentlichen Diskussionen. 


2.3 IT-Einsatz in der Literaturtextanalyse 


Die Kernaufgabe der Informatik ist die Durchführung einer Problemlösung/Aufgaben- 
stellung mithilfe eines Computers. Dabei ist Computer im weitesten Sinn zu verstehen, 
wobei dazu Großrechner, Server, Clouds, PC’s, Laptops, Notebooks und Handys usw. ge- 
hören. Gegenüber einem Menschen kann ein Computer diese Problemlésung viel schnel- 
ler bearbeiten, macht weniger Fehler dabei (vorausgesetzt, das Programm ist ausrei- 
chend getestet) und ist in der Lage, sehr große Datenmengen (big data) einzubeziehen. 
Wenn z.B. eine Korpusanalyse aller deutschsprachigen Romane des 18. Jahrhundert an- 
steht, würde ein Mensch dazu allein zum Lesen schon sehr lange Zeit benötigen. Deshalb 
bleibt vieles in dem Bereich des Great Unread und kann erst durch Einsatz von digitalen 
Methoden (wie in den Digital Humanities) erschlossen werden. 


Hermann Johannes: Softwaretools für die Literaturtextanalyse - Ein Überblick 


Für die Lösung vieler Aufgabenstellungen in der Literaturtextanalyse werden eine 
Reihe von Programmen/Tools eingesetzt u.a. CATMA, spaCy oder andere, siehe weiter 
unten. Bei diesen Programmen kann der/die Anwender:in die Texte in einem passenden 
Format in das Tool importieren; Dann stehen ihm/ihr die Funktionen zur Textanalyse 
i.d.R mit grafischer Benutzeroberfläche (GUI Graphical User Interface) und grafischen 
Anzeigen der Ergebnisse zur Verfügung. Die Programme können entweder herunterge- 
laden und lokal installiert ober mithilfe eines Webbrowsers genutzt werden. 

Häufig werden auch Tools eingesetzt, bei denen man noch selbst programmieren 
muss, z.B. das System R inkl. der GUI RStudio oder die Programmiersprachen Python 
oder Java; das Tool ist dann die betreffende Entwicklungsumgebung inkl. Editor. Bei die- 
sen Tools stehen Bibliotheken (sogen. packages, libraries) mit speziellen Funktionen für 
die Bearbeitung von Literaturtexten zur Verfügung, bei dem System R die Bibliothek 
stylo für Stilometrie oder topicmodels für Topic Modeling, bei Python Funktionen wie 
split_into_words (Text in Wörter aufteilen) oder Counter (Häufigkeit eines Wortes). Mit 
diesen Zusätzen ist der noch zu leistende Programmieraufwand für die Analyse deutlich 
reduziert. 


2.4 Textformate und -codierung 


Ein Literaturtext, der mithilfe von Softwaretools analysiert werden soll, muss in digita- 
ler Form vorliegen. Neben txt- (reiner Text) oder csv- (Character Separated Values) wird 
das XML- (eXtended Markup Language) und das darauf basierende TEI-Format (Text 
Encoding Initiative) genutzt. 

Die TEI ist ein Konsortium, das einen Standard für die Darstellung, den Austausch 
und die Speicherung von Texten in digitaler Form entwickelt hat." Dieser Standard (TEI- 
Kodierung) basiert auf XML und definiert ein Dokumentenformat in Form einer Meta- 
sprache. Es ist zu einem De-facto-Standard in den Geisteswissenschaften geworden und 
liegt aktuell in der Version Ps vor.” 

TEI enthält mehrere Module, die bestimme Elemente zur Festlegung der Dokument- 
struktur, zur Markierung von Zeilen und Seiten, Tabellen, Anmerkungen, zur Auszeich- 
nung von Gedichten und Dramen und anderes mehr enthalten." 

Die Elemente sind mit sogenannten Tags gekennzeichnet. Diese sind in spitzen 
Klammern <...> eingeschlossen (Markup), wobei es jeweils ein Start- und ein Ende-Tag 
(letzteres beginnt mit/) gibt. 

Beispiel für Tags in dem Drama Schnitzlers Reigen: 


<listPerson> 

<person xml:id="soldat" sex="MALE"> 
<persName>Der Soldat</persName> 
</person> 


11 Vgl. URL: https://tei-c.org/ [Zugriff: 04.11.2023]. 
12 Vgl. ebd. 
13 Vg. Ebd. 
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.. weitere Personen 
</listPerson> 


Mit dem Tag <listPerson> wird die Liste der Personen/Figuren gestartet und mit </list- 
Person> beendet. Dazwischen wird jede Person mit einem id-Tag und Name-Tag defi- 
niert. 

Die einzelnen Szenen werden wie folgt definiert, hier ftir Szene I: 


<div type="scene"> 
<head> 
<pb n="327”/> I</head> 


Bühnenanweisungen werden mit 
<stage>Spät abends. An der Augartenbrücke.</stage> 


gekennzeichnet. 
Für gesprochene Texte wird folgendes verwendet: 


<sp who="#soldat"> 
<speaker>SOLDAT.</speaker> 

<p>Ah, ich bin der schöne Engel?</p> 
</sp> 


Mit diesen Tags werden bestimmte Elemente gekennzeichnet, die für Textanalysen ge- 
nutzt werden können, z.B. hier die spielenden Figuren mit ihren Texten in den verschie- 
denen Szenen. Literaturtexte werden auch im Standard-XML- oder einfachen txt-For- 
mat zum Download zur Verfügung gestellt. 

Bei der Codierung spielt auch der Zeichencode eine wichtige Rolle. Neben dem 
ASCII- sowie dem Windows-Zeichencode wurde ein UTF-8 Zeichencode eingeführt, der 
als Unicode bezeichnet wird. UTF-8 ist in den ersten 128 Zeichen identisch mit dem ASC 
II-Code, hat meist nur ein Byte Speicherbedarf und eignet sich für Zeichen der meisten 
westlichen Sprachen, wodurch UTF-8 zu einer De-facto-Standard-Zeichenkodierung 
für das Internet geworden ist. Eine UTF-8-Codetabelle ist in https://www.utf8-zeichen 
tabelle.de/ zu finden. 


2.5 Praktische Vorgehensweisen 


Um Texte zu analysieren, benötigt man einen oder mehrere Texte und geeignete Tools 
für die Analyse. Texte sind in vielen Quellen im Internet zu finden, hier einige mit ihren 
Web-Adressen. 


« Drama Corpus 
»Der German Drama Corpus (GerDraCor) enthält ca. 500 deutschsprachige Stücke. 
Die Texte sind TEI P5-kodierte und somit die Szeneneinteilung reproduzierende 
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XML-Dokumente.« (Fischer u.a. 2022). Die Internet-Adressen (URL) dazu sind 
dracor.org (international) und gerdracor.de (deutscher Raum). 

+ Deutsches Textarchiv (DTA), verschiedene Textformate 
https://www.deutschestextarchiv.de/ 

e  TextGrid Repository 
https://textgrid.de/ mit Tools, Texten und Tutorials 
https://textgridrep.org/ zum Download von Texten im xml-Format 

e DigBib.Org, Die digitale Bibliothek; Texte im pdf-FormatKOLIMO 
https://kolimo.uni-goettingen.de/index.html 

e Gutenberg-Projekt 
https://www.projekt-gutenberg.org/ 
Die Texte können häufig nur kapitelweise heruntergeladen und z.B. in einer txt-Da- 
tei gespeichert werden. 

+ Zeno.org 
https: //www.zeno.org/ 


Wenn ein Analyseprogramm txt-Dateien verarbeiten kann, können diese direkt indem 
txt-Format heruntergeladen werden. XML-Dateien können nach dem Download mit ge- 
eigneten Tools in txt-Dateien umgewandelt werden, z.B. mit Microsoft Word© oder ei- 
nem XML-Editor. Bei Word wird die XML-Datei geöffnet und mit »Speichern unter« als 
»Nur Text« in einer txt-Datei gespeichert. Dabei sollte die Einstellung »Textcodierung 
nach Windows (Standard)« und »Zeilenumbrüche einfügen« gewählt werden. PDF-Da- 
teiinhalte werden in eine txt-Datei kopiert. Bei Bedarf kann Word Texte auch im xml- 
Format speichern. 

Die Analysetools sind oft im Web zu finden, meist kostenfrei als sogen. »Open 
Source« Software. Sie können teilweise direkt als Web-Applikation genutzt werden oder 
müssen auf einen lokalen PC oder Server heruntergeladen werden. Im Fall von aus- 
führbaren exe-Dateien müssen sie dann installiert und evtl. noch konfiguriert werden. 
Im Fall von Source-Code (Softwareprogramm) muss das passende Ausführungssystem 
lokal installiert werden, z.B. 


e bei einem Java-Programm (ist meist eine jar-Datei) eine JRE (Java Runtime Environ- 
ment) oder, wenn man auch noch programmieren möchte, eine JDK (Java Develop- 
ment Kit) plus Editor (z.B. Java-Editor oder Eclipse); teilweise müssen noch benötigte 
Erweiterungen heruntergeladen und installiert werden, 

e  beieinem Python-Programm eine IDE (Integrated Development Environment), z.B. 
IDLE (Integrated Development and Learning Environment) plus Anaconda-Editor 
oder Visual Studio Code; auch hier sind häufig Erweiterungen (libraries) notwendig, 

e bei einem System R Skript das System R selbst und als Editor RStudio; Erweiterun- 
gen werden als packages heruntergeladen und installiert, z.B. stylo für die Stilome- 
trie, siehe dort. 


Auf die betreffenden URLs wird hier verzichtet, da sie sehr leicht im Internet zu finden 
sind. 
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2.6 Statistische Merkmale eines literarischen Textes 


In diesem und den folgenden Abschnitten werden nur einige der oben aufgelisteten di- 
gitalen Methoden etwas näher beschrieben und erläutert. 


e Die statistischen Merkmale eines Textes werden bei computationellen Analysen li- 
terarischer Texte als erstes ermittelt; dazu gehören u.a.: Anzahl der Zeilen, Zeichen, 
Wörter und Schlüsselwörter 

« Häufigkeit aller Wörter (mit/ohne Stoppwörter); die Häufigkeiten können grafisch 
mit Wordclouds angezeigt werden, siehe Abbildung 2. 

e Nachbar-Worter (Kontext, KWIC = Keywords in Context) von Schlüsselwörtern mit 
Vorgabe der Anzahl der Nachbarn, sowie deren Häufigkeiten. Grafische Visualisie- 
rung mit DoubleTrees. 

e Verteilung der Schlüsselwörter in (gleich langen) Textsegmenten mit Distributions- 
graph, siehe Abbildung 3. 

e Die Verteilung der Figuren bei Dramen: Welche Figur hat wie viele Redebeitrage in 
den Szenen und welche Figur tritt mit welcher Figur in den Szenen gemeinsam auf, 
siehe Konfigurations- und Adjazenzmatrix in Kap. 3.5 

e Annotationen einzeln oder im Team mit frei definierbaren Annotationskategorien 

« Manuelle Queries (Abfragen), zum Beispiel wie in CATMA, siehe Kap. 4.1: 

o Wie viele Wörter enthält der Text? 

o Was sind die am häufigsten vorkommenden Inhaltswörter, d.h. Wörter mit 
»mehr« Bedeutung als Funktionswörter wie Artikel, Pronomen usw.? 

o Wie viel Wörter beginnen mit »A«? 

o Welche Wörter kommen mehr als 5-mal vor? 


Im Folgenden werden Abbildungen zur Erläuterung der oben genannten statistischen 
Merkmale gezeigt: 


Abb. 2: Wordcloud zu Büchners »Dantons Tod« 
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Quelle: Mit Excel® erstellte Grafik aus der Ausgabe von LitAs, siehe Kap. 4.6 
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Abb. 3: Verteilung bei Dramen: Welche Figur tritt in welchem Akt (1-4) in Büchners Dantons Tod 


wie oft auf (hier Anzeige der 16 Figuren mit den häufigsten Auftritten) x-Achse: 4 Akte; y-Achse: 
Häufigkeiten. 
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Quelle: Mit Excel erstellte Grafik aus der Ausgabe von LitAs, siehe Kap. 4.6 
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Digitale Methoden 


Digitale Methoden und Verfahren für die Literaturtextanalyse: Basis-Begriffe 


Folgende digitale Methoden werden in der computationellen Literaturtextanalyse einge- 


setzt; viele kommen aus der Sprachverarbeitung (NLP) (hier nur einige, in alphabetischer 


Reihenfolge): 


Annotation (siehe Kap.3.2). 

Distant Reading und Close Reading bezeichnen Ansätze aus den digitalen Literaturwis- 
senschaften, die in Kap. 3.3 näher beschrieben werden. 

Die EDA (Explorative Datenanalyse) entspricht einer induktiv-explorativen Vorge- 
hensweise, bei welcher nach Auffälligkeiten oder Trends in Datensätzen, Texten oder 
Korpora gesucht wird. Für explorative Ansätze kommen prinzipiell viele der nachfol- 
gend genannten Tools in Frage. 

Häufigkeitsverteilung ist die Verteilung der Häufigkeit eines Wortes in einem Text, der 
durch gleich lange Abschnitte, Kapitel oder Szenen o.ä. definiert sind. 
Lemmatisierung bezeichnet die Reduktion der Wortform aufihre Grundform. 

Named Entity Recognition (NER, Erkennung von Eigennamen) ist eine Methode, bei der 
eindeutig benannte Größen (Entitäten) automatisch vom Programm erkannt undim 
Text markiert werden. Typische Beispiele für NER-Kategorien sind Personen, Län- 
der, Orte, Produkte, Organisationen oder Buchtitel. 
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Netzwerkanalyse (s. auch: Konfigurations- und Adjazenzmatrix, Kap. 3.5): Ein Netzwerk 
besteht aus Knoten und Kanten. Damit kann man bestimmte Zusammenhänge vi- 
sualisieren, wobei einerseits die Topologie des Netzes Informationen liefert, ande- 
rerseits kann man auch mit Dicke und Farbe Informationen auf die Knoten und Kan- 
tenlegen. Beispiele für solche Netze sind die Figurenkonstellationen ineinem Drama 
(wer tritt mit wem in welcher Szene auf) oder die Distanzen von Literaturtexten in 
der Stilometrie (z.B. das Simmelian Backbone Network, vgl. Weitin 2021). 
KI-basiertes Clustering (siehe Kapitel 3.4). 

Parsing bezeichnet die Erkennung der Konstituenten eines Wortes, Satzes bzw. 
Textes. Mit einem Parser werden grundsatzlich (Programm-)Eingaben zur Weiter- 
verarbeitung überprüft und geeignet angepasst. Beispielsweise ist der Parser in 
einem Computersprache-Ubersetzer (Compiler) für die syntaktische Prüfung des 
Programms zustandig. 

POS-Tagging (Part-of-Speech-Tagging) ist die Zuordnung von Wortern eines Textes 
zu Wortarten, siehe dazu auch das Python-Programm in dem Kapitel 4.3 zu spaCy 
weiter unten. Für das POS-Tagging wird neben Verfahren des NLP auch KI einge- 
setzt, um Vorhersagen darüber zu treffen, welches Tag oder Label in diesem Kontext 
am ehesten zutrifft. Z. B. ist ein Wort, das in einem deutschen Text auf der/die/das 
folgt, i.d.R. ein Substantiv. 

Die Sentimentanalyse ist ein Teilgebiet der Literaturtextanalyse und bezeichnet die ge- 
zielte Suche von bestimmen Informationen in Literaturtexten. Dabei liegt der Fokus 
der Suche auf Gefühlen und Empfindungen, aber auch aufindividuellen Meinungen, 
die in den Texten erkannt und ausgewertet werden (vgl. Flüh 2019). 

Ermittlung von statistischen Merkmalen wie die Häufigkeit von (bestimmten) Wörtern 
(MFW: Most Frequent Words), z.B. Schlüsselwörtern oder Nachbarn (KWIC: Key- 
words in Context). 

Stilometrie (siehe Kap. 3.6). 

Verwendung von Stoppwortlisten: Bestimmte Wörter werden bei der Ermittlung von 
Worthäufigkeiten ausgeblendet, z.B. Wörter wie und, oder, damit usw. Es handelt sich 
dabei meist um Artikel, Konjunktionen oder Pronomen, die in Stoppwortlisten ge- 
speichert und bei den statistischen Merkmalen wie Worthäufigkeit nicht mitgezählt 
werden. 

Textdigitalisierung bezeichnet die Umwandlung eines handschriftlichen oder ge- 
druckten Textes in einen digitalen Text (wie durch OCR: Optical Character Recogni- 
tion). Tools dazu sind u.a. Abbyy FineReader (kommerzielle OCR-Software) oder 
OCRa4all als kostenfreies OCR-Tool, siehe Kap. 4. Die OCR-Schrifterkennung sollte 
nur dann eingesetzt werden, wenn die Qualität des zu digitalisierenden Textes 
gut ist, sonst ist der Aufwand für die Nacharbeit zu hoch. Eine Alternative besteht 
darin, dass der Text einer Spracherkennungssoftware vorgelesen wird. Bei kleineren 
Texten ist kann der Nachbearbeitungsaufwand dann meist geringer als bei OCR. 
Tf-idf (term frequency — inverted document frequency) ist ein Maß für die Bedeu- 
tung eines Wortes/Terms hinsichtlich seiner Fähigkeit, Dokumente voneinander zu 
unterscheiden (Ähnlichkeit). tf-idf=term_frequency * inverted_document_frequen- 
cy mit term_frequency = Anzahl der Vorkommen eines bestimmten Terms im Do- 
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kument inverse_document_frequency = log (Gesamtzahl der Dokumente/Anzahl der 
Dokumente mit Term) + 1; log zur Basis 2 

e  Tokenisierung bezeichnet in der Computerlinguistik die Vorverarbeitung eines Tex- 
tes mittels Segmentierung in Einheiten, z.B. der Wortebene. Erst danach kann die 
Textanalyse auf Basis der Tokenisierung durchgeführt werden. Zur Aufteilung eines 
Satzes in Wörter kann als einfacher Algorithmus die Abtrennung nach jedem Leer- 
und Satzzeichen verwendet werden. In vielen Tools sind dazu entsprechende Biblio- 
theken enthalten (Python, NLTK, spaCy, Deras, Gensim). 

e Topic Modeling (siehe Kapitel 3.7). 

« Mit Visualisierung wird ein Sachverhalt, etwa das Ergebnis einer Analyse, visuell z.B. 
mittels Grafiken (Netzwerkgraphen) oder farbig abgestuften Tabellen sichtbar ge- 
macht. »Visuelle Darstellungen können neue Einsichten in Textdaten und deren in- 
nere Zusammenhänge liefern. Textvisualisierungen unterstützen sowohl die Kom- 
munikation von Forschungsergebnissen als auch die explorative Analysetätigkeit.«'* 
Eine Wordcloud zeigt eine Wolke mit Wörtern, wobei die Häufigkeit innerhalb des se- 
mantischen Feldes (wie etwa bei Topic Modeling, vgl. Weitin 2021, S. 119) durch die 
graphische Größe des Wortes dargestellt wird und das häufigste Wort in der Mitte 
steht. 

e Mit Worteinbettung (Word Embedding) und Vektorisierung werden die Wörter eines 
Textes in numerische Vektoren umgewandelt; auf Basis dieser Vektoren können Zu- 
sammenhänge sowie der Kontext der Wörter zueinander mathematisch berechnet 
werden. Ein Tool für Worteinbettung ist Word2vec, das auf einem neuronalen Netz 
basiert (vgl. Thamm 2023). 

e  Zipfsches Gesetz (vgl. Leopold 2022) ist ein Verfahren und besagt, dass die Häufigkeit 
eines Wortes (Events) umgekehrt proportional zu seiner Position in der Reihenfol- 
ge ist. Es gilt damit (in fast jeder Sprache), dass das häufigste Wort etwa doppelt so 
häufig vorkommt wie das zweithäufigste, das dritthäufigste Wort ein Drittel so oft 
wie das häufigste usw. Damit ist die Wahrscheinlichkeit p des Auftretens eines Wor- 
tes umgekehrt proportional zu seinem Platz n (Rang) auf der Haufigkeitsliste: p(n) ~ 


1/n.® 


3.2 Annotation 


Unter Annotation versteht man die manuelle oder automatische Ergänzung von zusätz- 
lichen Informationen zu einem Text, z.B. Kommentare, Anmerkungen, Zuweisen von 
Analysekategorien usw. Das können Hervorhebungen oder auch Textergänzungen sein. 
Als gelungene digitale Umsetzung von hermeneutischen Verfahrensweisen zeigt sich 
das »undogmatische«, d.h. dynamisch erweiterbare, textanalytische Tool CATMA*: Hier 
sind »freie Annotationen nach individuell definierten Kategorien, Mehrfachannotation 


14 URL: https://fortext.net/routinen/methoden/textvisualisierung [Zugriff 06.11.2023] 
15 Vgl. URL: https://bernardzitzer.com/de/zipfsche-gesetz-zipfs-law/ [Zugriff: 05.11.2023] 
16 Vgl. URL: https://fortext.net/tools/tools/catma [Zugriff: 08.11.2023] 
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einzelner Wörter und Passagen, überlappende Annotation [oder] widersprüchliche 
Annotation«' möglich. 

Während die manuelle Annotation händisch vorgenommen wird, kann eine 
(teil-Jautomatisierte Annotation u.a. durch Machine-Learning-Verfahren durchgeführt 
werden kann (vgl. Jacke 2018). Ein Goldstandard wird auf der Basis der intersubjektiven 
Übereinstimmung von kollaborativen Annotationen erstellt (vgl. Gius 2015). Mit einem 
Python-Package GitMA kann direkt auf das Backend von CATMA zugegriffen werden, 
um Annotationsdaten (in CATMA) in Tabellen zu visualisieren und einen Goldstandard 
zu erstellen (vgl. Schumacher/Vauth 2022, $ 1). Im Abschnitt über CATMA (siehe Kap. 
4.1) wird näher auf das Thema eingegangen. 


3.3 Distant Reading und Close Reading 


Wegen des großen Aufwands ist es für einen Menschen oder auch eine Gruppe nahe- 
zu unmöglich, sehr große Textmengen zwecks Analyse dieser Texte zu lesen. Mit Com- 
putern ist das aber kein Problem mehr, da die Lese- und Verarbeitungsgeschwindigkeit 
drastisch steigt. Der Begriff Distant Reading geht auf Franco Moretti zurück und bedeu- 
tet in diesem Zusammenhang, dass »computationelle Verfahren auf viele Mengen von 
Textdaten angewandt werden, ohne dass die Texte selber gelesen werden.«'® Dabei wer- 
den quantitative Analyseverfahren eingesetzt, wobei auch qualitative Metadaten quan- 
titativ untersucht und verglichen werden können. 

Der Gegenbegriff zu Distant Reading ist Close Reading. Dabei werden die Texte 
sorgfältig gelesen und analysiert bzw. interpretiert, wobei die manuelle Annotation eine 
wichtige Rolle spielt. Inzwischen sind digitale Analyseprogramme wie z.B. CATMA dazu 
in der Lage, die Annotationen zumindest teilweise automatisiert durchzuführen. 


3.4 Kl-basiertes Clustering 


In der Literaturtextanalyse wird KI (Künstliche Intelligenz) seit vielen Jahren eingesetzt. 
Das liegt unter anderem daran, dass immer mehr Daten (Big Data) für das Trainieren 
(überwachtes Lernen) von KI-Tools vorliegen und dass KI immer leistungsfähiger bzgl. 
der Hardwarebasis und der Softwaretechnik wird. KI hat gegenüber einfachen mul- 
timodalen Analysetechniken den Vorteil, dass die Einflussparameter beim Trainieren 
automatisch erkannt werden und nicht mühsam manuell ermittelt werden müssen. Ein 
Anwendungsbereich für KI ist das Clustering, d.h. Einordnung von Texten in Clustern, 
wozu bestimmte Textattribute (z.B. Gattung, Epoche, Gender, ggfs. Kanonizität oder 
Bekanntheitsgrad usw.) genutzt werden können. Weitere Anwendungsbereiche der KI 
sind Annotationen, Sprachanalysen (Parts-of-Speech-Analyse, Syntaxanalyse/Parsing), 
Sprachübersetzung, Sentimentanalyse, Sprach- und Befehlserkennung sowie Chat- 
Bots. In weiteren Beiträgen des vorliegenden Bands werden KI-Systeme im Allgemei- 
nen sowie ihre Möglichkeiten und Grenzen detailliert beschrieben, sodass das Thema in 


17 Ebd. 
18 Distant Reading Glossar. In: forTEXT. Literatur digital erforschen. URL: https://fortext.net/ressour 
cen/glossar [Zugriff: 07. 08. 2023] 
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diesem Kapitel nicht weiter vertieft wird. Auf dem Download Server wird ein Beispiel 
für die KI-basierte Methode das Clustering von Autorendaten entwickelt.” 


3.5 Netzwerkanalyse: Konfigurations- und Adjazenzmatrix bei Dramen? 


Bei der Analyse von Dramen sind neben den statistischen Auswertungen auch folgende 
Fragestellungen von Interesse: 


+ Wie häufig tritt eine Figur in welcher Szene auf? 
e Welche Figuren agieren mit welchen zusammen auf der Bühne? 
+ Wie umfangreich sind dabei die Redebeiträge der Figuren? 


Zu diesem Zweck werden Netzwerkanalysen erstellt und mit Hilfe von Konfigurations- 
und Adjazenzmatrizen (vgl. Lück (0.].), S. 243ff., vgl. auch Pfister 2004, S. 44) visualisiert. 

Der rumänische Mathematiker und Philosoph Solomon Marcus hat sich bereits ab 
den 1960er Jahren mit diesem Thema auseinandergesetzt und dazu mathematische Kon- 
zepte entwickelt (vgl. Marcus 1973, S. 287ff, vgl. Lück o.]., S. 243). Unter anderem hat 
er die sogenannte Konfigurationsmatrix konzipiert, eine zweidimensionale Tabelle, die in 
der i-ten Zeile (z.B. in der Zeile 7, Figur HERMANN) und der j-ten Spalte (z.B. j=4, Szene 
2.1) die Anzahl der Redebeiträge der Figur in dieser Szene angibt (hier 21). 


Tabelle 1: Beispiel einer Konfigurationsmatrix (Ausschnitt aus Schillers Die Räuber), Häufigkeit 
der Auftritte/Redebeiträge der Figuren in den einzelnen Szenen 


Szenen 11] 1.2 | 1.3 | 2.1 | 2.2] 2.3 | 31] 3.2] 41] 4.2] 43] 4.4] 4.5] 5.1 | 5.2 | Sum 
AMALIA 20 33 20 11 14 13 | 111 
BEDIENTER 5 5 
DANIEL 1 25 | 15 26 67 
DER ALTEMOOR 28 38 8 20 | 94 
FRANZVON MOOR | 29 22 | 22 | 16 9 27 47 172 
GRIMM 7 10 41315 29 
HERMANN 21 | 11 10 10 52 
KARL VON MOOR 29 25 37 | 2 | 12 | 20] 11 | 31 44 | 211 
KOSINSKY 21} 1 4 26 
MOSER 17 17 
PATER 13 13 
Quelle: mit Excel© aufbereitete Tabelle aus der Ausgabe von LitAs (siehe Kap. 4.6) 


19  https://github.com/LuckeJohannes/Literaturwissenschaft_Informatik 
20 Vgl. URL: https://dracor.org/ [Zugriff: 15.05.2023] 
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Marcus nennt dabei zwei Figuren 


»szenisch konkomitant, wenn sie stets zusammen auf der Bühne sind 

szenisch dominant, wenn die eine nur dann auftritt, wenn auch die andere — domi- 
nante — Figur auf der Bühne ist [...] 

szenisch unabhängig, wenn zwischen ihnen weder ein szenisch konkomitant noch ein 
szenisch dominantes Verhältnis besteht. 

Die szenische Unabhängigkeit kennt zwei Sonderfälle: Zwei Figuren sind 

szenisch alternativ, wenn sie in keiner Szene gemeinsam auftreten 

szenisch komplementär, wenn sie szenisch alternativ sind und die Vereinigungsmen- 
ge der Szenen, in denen jede anwesend ist, gleich der Menge aller Szenen des Stückes 
ist." 


Auf dieser Basis können »Beziehungen« zwischen Figuren und eine soziale Netzwerk- 
analyse angeschlossen werden (vgl. ebd.). 

Eine Variante der Konfigurationsmatrix besteht darin, dass statt der Anzahl der Re- 
debeitrage nur eine »1« in der i-ten Zeile und der j-ten Spalte enthalten ist, wenn die 
Figur i mindestens 1x in der Szene ij auftritt. In dem Fall wird die Matrix als Binärmatrix 
bezeichnet, da nur o und 1 vorhanden sind und beschreibt quasi die Szenenstruktur des 
Dramas. 

Auf Basis der Konfigurationsmatrix kann ein Netzwerkgraph als »Beziehungsgraph« 
zwischen den Figuren eines Dramas ermittelt werden. Der »Beziehungsgraph« zeigt 
grafisch an, wie oft je 2 Figuren gemeinsam in den Szenen auftreten. Dazu wird eine 
Adjazenzmatrix (n x n-Matrix, Tabelle) A= (aij) gebildet, die wie folgt definiert ist: Ein 
Eintrag aij enthält für ein Paar zweier Figuren des Stückes die Anzahl der gemeinsamen 
Auftritte der beiden Figuren in allen Szenen (vgl. Lück o.]., S. 249). Z.B. treten HER- 
MANN und AMALIA gemeinsam in den Szenen 2.2 und 3.1 auf, so dass der Eintrag aij = 
a71 = 2 ist (Zeile HERMANN und Spalte AMALIA), siehe 4. 

Zusätzlich kann die Anzahl der Redebeiträge (turn takings), die die Figuren in einer 
gemeinsamen Szene haben, >in die Rechnung eingehen (vgl. ebd., S. 254); dabei kann 
z.B. für jede gemeinsame Szene das Minimum (der Anzahl Redebeiträge pro Figur) oder 
das Maximum oder jeweils die Summe beider Werte aus den Szenen aufaddiert werden 
(vgl. ebd.). »Durch die Verwendung des Minimums wird der Abstand zwischen Haupt- 
und Nebenfiguren in den Kantengewichten deutlicher« (ebd.), mit dem Maximum wer- 
den Nebenfiguren zu dominanten Figuren erhoben (vgl. ebd.). Mit Hilfe des jeweils größ- 
ten Eintrags in der Matrix kann eine Normierung durchgeführt werden (vgl. ebd.). Eine 
weitere Alternative für die Gewichte ist, die Beitragsanzahl durch die Beitragslänge in 
Wörtern zu ersetzen, um die Bedeutung der Figur noch besser zu charakterisieren (vgl. 
ebd.). 

Mit einer Spalte »DEGREE« in der Adjazenzmatrix, die die Anzahl der Kanten, die an 
einen Knoten grenzen, angibt, kann der Mittelwert der Grade aller Figuren des Stückes 
angezeigt werden (vgl. ebd.). Bei diesem Graphen sind die Kanten nicht gerichtet, da 


21 Marcus 1973, S. 287ff. 
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es sich bei der Adjazenzmatrix um eine obere Dreiecksmatrix handelt; das obere rechte 
Dreieck hat dieselben Werte wie das untere linke. 

Während in der Konfigurationsmatrix noch die Zeitabfolge in Form der Szenense- 
quenz dargestellt wird, ist die Zeitabfolge in der Adjazenzmatrix nicht mehr enthalten. 


Abb. 4: Beispiel einer Adjazenzmatrix zu der obigen Konfigurationsmatrix: wie 
oft tritt eine Figur mit einer anderen Figur in den Szenen auf 


a 


wu ly = 

Adjazenzmatrix = & T 2 > = =i, È & / & & 

S/A/Z/E/S/E/E/E/SIS/EIE 

g/a/d/a/F/o/zr/S/2/5/F/a 
AMALIA 2} 2) 4 1| 2| 3 14 
BEDIENTER | 1 1 1 1 4 
DANIEL 2| 1 1 3) 1 1| 2| 1| 1 13 
DER ALTE MOOR 2 1 2} 2| 2| 2 11 
FRANZ VON MOOR 4 1| 3| 2 1| <3] 4 1 16 
GRIMM 1 1 1) 2) 1 14171 13 
HERMANN Q) 1 2) 3) 1 1 10 
KARL VON MOOR 3 2| 2| 1| 4| 1 3 1| 17 
KOSINSKY 1 1 3 5 
MOSER 11 le | 4 
PATER 1 1 


Quelle: Mit Excel© erstellte Grafik aus der Ausgabe von LitAs 


Abb. 5: Netzwerkgraph zur obigen Adjazenzmatrix 


Quelle: Visualisierung mit LitAs 


209 


210 


Literaturwissenschaft und Informatik 


Die Werte in der Adjazenzmatrix (Kantengewichte) können noch normiert werden, 
damit die Beziehungen eines Theaterstücks mit denen eines anderen vergleichbar wer- 
den. Als Normierungsquotient kann man z.B. den größten Wert in der Adjazenzmatrix 
nehmen und alle Werte durch diesen dividieren. Dann sind alle Werte zwischen o und 1. 

Normierte Werte können auch besser visualisiert werden. In der Visualisierung wird 
dadurch diejenige Kante, die die numerisch stärkste Beziehung zweier Figuren darstellt, 
für jedes Stück gleich breit gezeichnet. 

Die Adjazenzmatrix kann auch grafisch visualisiert werden (Netzwerkgraph), indem 
die Figuren die Knoten und die Matrixinhalte aij die Kanten (Beziehungen, gemeinsame 
Auftritte) bilden, siehe 5. Dabei zeigt die Dicke der Verbindungslinie zwischen zwei Fi- 
guren die Anzahl der Beziehungen, die zusätzlich auch als Zahl an der Kante angezeigt 
wird. Mit dieser Grafik lässt sich gut erkennen, welche die zentralen Figuren sind, da 
jede Kante des Graphen als Gewicht die gemeinsamen Auftritte erhält (vgl. ebd., S. 249). 


3.6 Stilometrie 


Eine in den Digital Humanities häufig genutzte Methode zur Analyse von Textkorpora, 
unter anderem zum Vergleich von Texten zwecks Zuordnung zu Epochen, ist die Sti- 
lometrie. Dabei wird die Ähnlichkeit der Texte mithilfe eines Distanzmaßes gemessen, 
wobei unter anderen das Burrows’ Delta-mean Distanzmaß (Burrows 2002, S. 267) ge- 
nutzt wird (weitere Distanzmaße sind das euklidische und das Cosinus Distanzmaß). Je 
kleiner die Distanz zwischen zwei Texten ist, desto ähnlicher sind sie sich. Mit der Di- 
stanz eines Textes zum Mittelwert des Korpus kann seine Epochenzuordnung ermittelt 
werden. Die Distanzmessung kann noch andere Erkenntnisse zutage fördern; u.a. soll 
man erkennen können, ob der Text von einer Frau oder einem Mann geschrieben wurde. 
Eine detailliertere Beschreibung der Methode und ein Anwendungsbeispiel finden sich 
auf dem Download Server. 


3.7 Topic Modeling 


Topic Modeling ist ein auf Wahrscheinlichkeitsrechnung basierendes Verfahren zur Ex 
ploration größerer Textsammlungen. Das Verfahren erzeugt statistische Modelle (To- 
pics) zur Abbildung häufiger gemeinsamer Vorkommnisse von Wörtern. Die Methode 
des Topic Modeling bietet die Möglichkeit, Textsammlungen thematisch zu explorie- 
ren. Dabei geht man davon aus, dass eine Textsammlung aus unterschiedlichen >The- 
men: bzw. besser: »Topics< besteht, die in den einzelnen Dokumenten der Sammlung 
in unterschiedlicher Ausprägung vertreten sind. Unter einem »Topic« versteht man da- 
bei eine Gruppe von Wörtern (wie zum Beispiel die Wörter »Theater«, »Schauspieler« 
und »Stück«), die in einem Text ungewöhnlich - d.h. statistisch auffällig- oft gemein- 
sam vorkommen. ?? 


22 Horstmann 2018. 
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Zu dem Thema Topic Modeling oder Themenmodellierung existieren eine Vielzahl von 
Dokumentationen in wissenschaftlichen Werken (z.B. in Weitin 2021, S. 118ff.) oder auf 
der Seite forText - Literatur digital erforschen.” 

Bei der Themenmodellierung werden zunehmend KI-Techniken eingesetzt, wo- 
durch dieses Verfahren zum Gruppieren von Dokumenten in semantische Cluster 
häufig genutzt wird. Die Häufigkeitsverteilung von Wörtern in einem Textkorpus folgt 
dem Zipf’schen Gesetz, das vereinfacht besagt, dass wenige Wörter sehr häufig und 
viele Wörter eher selten vorkommen. Bei der Themenmodellierung sind nur Wörter im 
mittleren Häufigkeitsbereich von Interesse; die häufigsten Wörter sind in der Regel in- 
haltsleere Funktionswörter (Stoppwörter), und die seltensten Wörter sind so spezifisch, 
dass sie für das Modell nicht von Nutzen sind. 


Anwendungsbeispiel 

Es soll der Inhalt einer größeren Textsammlung - wie beispielsweise das Œuvre There- 
se Hubers oder auch die gesamte Prosaliteratur des 18. und 19. Jahrhunderts - erforscht 
werden. Das Topic Modeling ermöglicht es, die Texte untereinander zu vergleichen, ohne 
jeden Text der Sammlung individuell zu lesen. Abhängig von der Größe der Textsamm- 
lung kann man festlegen, wie viele Topics erstellt werden und wie groß diese Topics sein 
sollen. Die Topics werden manuell so lange modelliert, bis ein aussagekräftiges Ergeb- 
nis erscheint (vgl. Weitin 2021). Nun kann untersucht werden, »welche Topics in welchen 
Texten besonders oft vertreten sind - oder auch umgekehrt, welche Texte ein gegebe- 
nes Topic besonders stark sthematisieren« (ebd.); dabei können textimmanente Bedeu- 
tungsstrukturen in ihnen abgelesen werden. 


Technische Grundlagen 

Der im Topic Modeling am häufigsten genutzte Algorithmus wurde von Blei, Ng und 
Jordan (vgl. Blei 2003, S. 993ff.) unter dem Namen Latent Dirichlet Allocation (LDA) ent- 
wickelt und liegt auch den Tools Mallet machine learning for language toolkit)”* (in Java 
programmiert) und DARIAH” (in Python programmiert) zugrunde. »Er basiert auf ei- 
ner wiederholt zufälligen Auswahl an Textsegmenten, wobei innerhalb dieser Segmen- 
te jeweils die statistische Häufung von Wortgruppen erfasst wird. Der Algorithmus be- 
rechnet somit die Topics der Textsammlung, die Topic-Anteile in den Einzeltexten und 
welche Wörter zu den jeweiligen Topics gehören.« (Ebd.) In R wird das package topic- 
models zur Verfügung gestellt, Microsoft setzt in seinem Azure Machine Learning Paket 
auch den LDA-Algorithmus ein.” 


23 _ https://fortext.net/ [Zugriff: 30.10.2023]. Vgl. zu dem Thema auch den Artikel von Laura Kraft im 
vorliegenden Band. 

24  https://mimno.github.io/Mallet/topics [Zugriff: 27.10.2022] 

25 Vgl. DARIAH, TopicsExplorer— Themen und Inhalte von Textsammlungen erkunden, »In coope- 
ration with DARIAH-DE«, URL: https://de.dariah.eu/text-analysis-with-topic-models [Zugriff: 
27.10.2022] 

26 Vgl. Microsoft (2022): »Latent Dirichlet Allocation«-Komponente, URL: https://learn.microso 
ft.com/de-de/azure/machine-learning/component-reference/latent-dirichlet-allocation [Zugriff: 
27.10.2022] 
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4. Softwaretools und Entwicklungsumgebungen zur Textanalyse 


Es werden in diesem Kapitel einige Softwaretools und Entwicklungsumgebungen für die 
Textanalyse vorgestellt und die wichtigsten Eigenschaften aufgelistet. Zu den Software- 
tools gehören: 


e CATMA (Verteilung, Nachbarn, Wordcloud, Annotationen im Team, u.v.a.m.) 

e Stanford CoreNLP (Natural Language Processing) 

e Python (Programmiersprache mit guter Unterstützung von Anwendungen zur Text- 
analyse) und spaCy (u.a. Tokenisierung, Lemmatisierung, POS (Part Of Speech) Tag- 
ging, Visualisierung) 

« R Projekt und RStudio (Stilometrie, KI-Clustering) 

e Visone (Netzwerkanalyse und -visualisierung) 

e  LitAs (Analyse von literarischen Texten und Dramen in Java) 


Diese Liste erhebt keinen Anspruch auf Vollständigkeit, da es bereits eine unüberschau- 
bare Anzahl von Softwaretools zur Analyse von (literarischen und nicht-literarischen) 
Texten auf dem Markt und im Bereich der Digital Humanities gibt. Die hier gelisteten 
Softwaretools werden nachfolgend teilweise nach den Rezensionsvorgaben von Hom- 
burg u.a. (2020) vorgestellt und rezensiert, indem die wichtigsten Eigenschaften der 
Softwaretools genannt und grob nach ihrem Nutzen für die Textanalyse bewertet wer- 
den. Eine vollständige Rezension und Evaluation der hier aufgeführten Tools kann an 
dieser Stelle nicht geleistet werden; dazu müssten alle Funktionen und Eigenschaften 
der Software systematisch von unterschiedlichen Nutzer:innen vom Key-User bis hin 
zum Standard-User getestet und bewertet werden (für eine vollständige Liste der Evalu- 
ierungskriterien, vgl. Homburg u.a. 2020). Die Rezension der Tools verfährt grundsätz- 
lich nach einem festgelegten Schema mit den aufgelisteten Aspekten und folgt dabei im 
Wesentlichen den Rezensionsvorgaben von GitHub.” 


« Aufgabe und Funktionen des Tools 

« Ablauf der Nutzung des Tools: Download, Installation, Konfiguration, Import von 
Texten (Datenformate), Textanalyse, Export, Aufbereitung von Grafiken usw.; Mög- 
lichkeit von Ablaufprozessen 

e Plattform: Betriebssystem, Datenbank, Web 

e Anforderung an Hardware- und Softwareversionen 

e Entwickler des Tools 

e Programmiersprache des Tools 

+ Welche Methoden/Algorithmen wurden verwendet? 

+  Ggfs. im Tool nutzbare Programmiersprache(n) 

« Open Source, Lizenzkosten, Kosten für Support und Wartung, Nutzermodell bei Li- 
zensierung 

e Schnittstellen (Import, Export, Datenbankzugriff, API usw.) 


27 URL: https://research-squirrel-engineers.github.io/Impuls_SoftwareRezensionen_DGUF/Draft.h 
tml [Zugriff:10.08.2023] 
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+ Konfigurierbarkeit, Einstellungen, Mehrsprachigkeit 

e Bedienungsanleitung/Dokumentation 

e Bedienbarkeit (u.a. wie werden Texte importiert) 

+ Nutzung von Grafiken 

+ Ggfs. Programm-Entwicklungsumgebung zur Nutzung des Tools 
e Support und Hotline 

e Datenschutz 


4.1 CATMA 


CATMA” (Computer Assisted Text Markup and Analysis) wird seit 2008 an der Universi- 
tät Hamburg entwickelt”? und ist ein frei verfügbares, webbasiertes Tool, mit dem man 
digitale Texte manuell annotieren, analysieren und visualisieren kann - allein oder kol- 
laborativ im Team (vgl. Schumacher 2019).Eine gute Dokumentation ist in forText (vgl. 
Schumacher 2019) zu finden. 

Die Annotationskategorien (sog. Tagsets) kann der Nutzer frei festlegen, so dass sich 
CATMA besonders für literaturwissenschaftliche Projekte eignet, in denen die Katego- 
rien zum Untersuchungsgegenstand passend definiert werden (vgl. Jacke 2018). 

In dem Projekt heureCLEA?° wurden automatische Annotationsfunktionen entwi- 
ckelt und in CATMA integriert. Dazu wurde das »Machine Learning«-Verfahren genutzt, 
wobei drei der manuell annotierten Phänomenkomplexe (Tempus, Zeitausdrücke und 
zeitliche Ordnung) als Trainingskorpus dienten. »Das Projekt 3DH arbeitet an der Ent- 
wicklung komplexerer Visualisierungsoptionen, von denen eine Auswahl in CATMA in- 
tegriert werden soll.«° In CATMA können auch Texte importiert werden, denen der/die 
Anwender:in Tags mittels NER (siehe oben) zugeordnet hat (vgl. Schumacher 2022). 

Um einen bestimmen Literaturtext zu analysieren, wird in CATMA zunächst ein neu- 
es Projekt angelegt »CREATE A NEW PROJECT«). Der zu analysierende Text wird dann 
im TEI-Format aus dem Textgrid-Repository” heruntergeladen und in das Projekt im- 
portiert. Nun können die CATMA-Funktionen auf den Text angewendet werden: 


« Definition von Analyse-Funktionen (»Analyze«) mit frei definierbaren Queries (Ana- 
lyseabfragen); dabei Ermittlung der typischen statistischen Merkmale 

e Nach individuell definierten Kategorien (z.B. anhand von verfügbaren oder selbst 
erstellten Tagsets), überlappende und widersprüchliche Annotationen sowie Mehr- 


28 Vgl. CATMA, inzwischen Version 7, URL: https://catma.de [Zugriff: 06.02.2024] 

29 Vgl. CATMA an der Universität Hamburg, URL: https://www.slm.uni-hamburg.de/germanistik/for 
schung/forschungsprojekte/catma.html [Zugriff: 27.10.2022] 

30 Vgl. Projekt heureCLEA (2013 — 2016), Uni HH und Heidelberg, Projektleitung: Prof. Dr. Jan Chris- 
toph Meister), URL: https://www.slm.uni-hamburg.de/germanistik/forschung/forschungsprojekt 
e/heureclea.html [Zugriff: 25.10.2022] 

31 URL: https://www.slm.uni-hamburg.de/germanistik/forschung/forschungsprojekte/catma.html 
[Zugriff: 05.11.2023] 

32 Vgl. https://textgridrep.org/, z.B. https://textgridrep.org/browse/qmv7_o für Kafka, Erstes Leid 
[Zugriff: 28.10.2023] 

33 Vgl. URL: https://fortext.net/tools/tools/catma [Zugriff: 08.11.2023] 
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fachannotation einzelner Wörter und Passagen. Annotationen einzeln oder im Team 
(Funktion Annotate) 

Visualisierung mit Hilfe von KWIC (Keywords in Context, Nachbar-Wörter zu einer 
Wortliste), Wordcloud mit Wörterauswahl, DoubleTree 

Distribution (Verteilung der Wörter im Text in n (10) Segmenten bzgl. Anzahl Zei- 
chen) mit Distributionsgraph 


Kurzbeschreibung der Eigenschaften von CATMA: 


Aufgabe und Funktionen: siehe oben 

Ablauf der Nutzung des Tools: siehe oben 

Nutzung z.B. zu literaturwissenschaftlichen Forschungszwecken, an hermeneuti- 
sche Verfahren angelehnt 

Plattform: Web 

Anforderung an Hardware und Softwareversionen: entfällt, da es webbasiert und frei 
verfügbar ist. Es kann mit allen gängigen Browsern genutzt werden, lediglich eine 
Anmeldung ist erforderlich 

Entwickler des Tools: University of Hamburg, Department of Language https://catm 
a.de/webarchive/catma-4.0/home.html 

Programmiersprache des Tools: Java 

Methoden/Algorithmen: umfangreich” 

Open Source: ja, lizensiert mit GNU General Public License 

Lizenzkosten und Kosten für Support und Wartung: keine 

Schnittstellen: Import von Texten, Export von Analyseergebnissen 

Textformate: TEI, XML, TXT, PDF 

Konfigurierbarkeit: teilweise, z.B. bei definierbaren Queries oder Auswahllisten; 
Mehrsprachigkeit: nein, nur englisch 

Bedienbarkeit (u.a. wie werden Texte importiert): etwas gewöhnungsbedürftig, aber 
gute Tutorials in forText (vgl. Schumacher 2019). Die Sichtbarkeit der Funktionen ist 
eingeschränkt und das Fensterhandling nicht selbsterklärend. Zum Speichern der 
Annotationen muss das eye-icon der tagsets im Annotate module aktiviert werden, 
sonst keine Speicherung. 

Bedienungsanleitung: ja bei forText”” 

Nutzung von Grafiken: ja viele 

Support: per Mail oder chat 


Datenschutz: nach der EU-Datenschutz-Grundverordnung” In forText werden neben 


CATMA weitere Tools für die digitale Textarbeit aufgelistet und kurz beschrieben. Dort 


sind auch Links für den Download enthalten. Es handelt sich u.a. um Tools zur OCR- 


34 
35 
36 


URL: https://fortext.net/routinen/methoden [Zugriff: 15.04.2023] 

URL: https://fortext.net/tools/tools/catma [Zugriff: 29.10.2023] 

URL: https://digitallearninglab.de/tools/catma-computer-assisted-text-markup-and-analysis 
[Zugriff: 15.09.2023] 
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Schrifterkennung, Korpusanalyse, Netzwerkvisualisierung, Formatumwandlung, NLP- 
Funktionen, Stilometrie und Sentimentanalyse. 


4.2 Stanford CoreNLP 


Die Spracherkennung (NLP Natural Language Processing) ist für viele Bereiche ein wich- 
tiger Bestandteil u.a. für Sprachübersetzungen oder für das Benutzerinterface in Gerä- 
ten, Automobilen und Maschinen. Die elementare Erkennung von Wörtern, Wortarten, 
Sätzen usw. (Tokenisierung und Lemmatisierung) ist auch ein wesentlicher Bestandteil 
der Literaturtextanalyse. 

Das Standford CoreNLP” ist ein Java-Tool zur Verarbeitung natürlicher Sprache. Es 
kann für Texte in mehreren Sprachen eine Tokenisierung, Lemmatisierung und Part- 
Of-Spech-Tagging durchführen, Named Entities erkennen (NER = Named Entities Re- 
cogintion), numerische und zeitliche Werte verarbeiten, sowie Dependenz- und Konsti- 
tuenten-Parses, Koreferenz und Sentimentanalysen durchführen und auch Zitatattri- 
butionen und Relationen ermitteln. Der zu untersuchende Text kann dabei durch eine 
Pipeline mit hintereinander geschalteten Funktionen geschleust werden. 

CoreNLP unterstützt derzeit acht Sprachen: Arabisch, Chinesisch, Englisch, Franzö- 
sisch, Deutsch, Ungarisch, Italienisch und Spanisch. 


4.3 Python und spaCy 


Python’? ist eine moderne, objektorientierte, high-level, general-purpose, Open-source”? , 
Multiplattform Programmiersprache. Sie ist darüber hinaus auch eine mächtige Ent- 
wicklungsumgebung insbesondere in Verbindung mit dem Tool Anaconda für vielerlei 
Anwendungen u.a. aus dem Bereich Literaturtextanalyse. Dazu stehen eine Vielzahl 
von Ergänzungen in Form von packages und libraries (eine library enthält eine bestimmte 
Menge von packages zur Erfüllung einer Aufgabenstellung) zur Verfügung, z.B. spaCy 
für Tokenisierung, Lemmatisierung und POS-Tagging, neuerdings auch für KI-An- 
wendungen. Eine Web-Adresse für die Top 30 libraries ist in der Fußnote.*° Die Python 
Software Foundation (PSF) ist eine unabhängige non-profit Organisation hinter Python, 
die die Copyrights auf Python innehat.* 


SpaCy ist 


eine freie, quelloffene Bibliothek für fortgeschrittene natürliche Sprachverarbeitung 
(NLP) in Python. [...]. Sie wurde speziell für den Einsatz in der Produktion konzipiert 
und hilft bei der Entwicklung von Anwendungen, die große Mengen an Text verarbei- 
ten und »verstehen«. Es kann zur Erstellung von Systemen zur Informationsextraktion 


37 Vgl. https://stanfordnlp.github.io/CoreNLP/ [Zugriff: 31.07.2023] 

38 Vgl. URL: https://www.python.org/ [Zugriff: 30.10.2023] 

39 Vgl. URL: https://opensource.org/ [Zugriff: 30.10.2023] 

40 Vgl. URL: https://www.mygreatlearning.com/blog/open-source-python-libraries/ [Zugriff: 30.10. 
2023] 

41 Vgl. URL: https://www.python.org/psf/ [Zugriff: 30.10.2023] 
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oder zum Verstehen natürlicher Sprache oder zur Vorverarbeitung von Text für Deep 
Learning verwendet werden.” 


Die Bibliothek ist leicht zu installieren, und ihre API (Application Programming Inter- 
face) ist einfach und produktiv. Sie eignet sich hervorragend für umfangreiche Informa- 
tionsextraktionsaufgaben und wurde von Grund auf in Cython (CPython) geschrieben, 
das ein sehr gutes Speichermanagement enthalten soll. Cython ist eine universelle Prog 
rammiersprache, die weitgehend mit Python kompatibel ist. Wie diese unterstützt sie 
objektorientierte, aspektorientierte und funktionale Programmierung. Der Hauptvor- 
teil liegt in der Übersetzung in die Zielsprache C, was das Programm deutlich perfor- 
manter im Vergleich zum Standard-Python-Interpreter macht.” 

Seit seiner Veröffentlichung hat sich spaCy zu einem Industriestandard entwickelt. 
Eine Vielzahl von Plugins können in Machine-Learning-Programme integriert werden, 
um damit eigene Komponenten und Workflows (automatisierte Abläufe) zu erstel- 
len.spaCy bietet u.a. folgende Funktionen für die Literaturtextanalyse an, siehe https:// 
spacy.io/usage/spacy-101: 


e  Linguistisch-motivierte Tokenisierung 

e  Part-of-Speech Tagging, Dependency Parsing, Lemmatisierung, Satzsegmentie- 
rung, Named Entity Recognition, Entity Linking, Wort-Vektoren und -Ähnlichkei- 
ten, Textklassifikation, Rule-based Matching 

e Morphologische Analyse 

e Textzusammenfassung 

« Eingebaute Visualisierer für Syntax und NER (Named Entity Recognition) 

e  Trainingsmodelle und Pipelines 

e Unterstützung für mehr als 72 Sprachen 


spaCy kann packageweise heruntergeladen werden, wobei die package-Funktionen in 
einer Python-Entwicklungsumgebung ausgeführt werden. 

Als Beispiel sei hier das Modul Part Of Speech für deutsche Texte genannt. Folgen- 
der Beispielsatz »Python ist ein System mit vielen Paketen für die Textanalyse« wird in 
seine sprachlichen Bestandteile (Basiswörter) zerlegt. Mit der Python-Entwicklungsum- 
gebung IDLE wird das Python-Programm (py-Datei) geöffnet. Vorher müssen noch 


e das Package spacy mit pip install spacy und 
e das deutsche Sprachpackage mit python -m spacy download de_core_news_sm 


heruntergeladen und installiert werden. Das folgende kleine Python-Programm für 
NLP-POS wurde ebenfalls von der Webadresse von spaCy** heruntergeladen und lokal 
mit dem Beispieltext ausgeführt: 


42 spaCy, Industrial-Strength Natural Language Processing, URL: https://spacy.io/ und https://spacy 
.io/usage/spacy-101 [Zugriff: 27.10.2022, Übers. v. JH] 

43 Vgl. URL: https://dewiki.de/Lexikon/Cython [Zugriff: 05.11.2023] 

44 Vgl. URL: https://spacy.io/ [Zugriff 30.10.2023] 
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import spacy 
nlp = spacy.load(“de_core_news_sm”) 
doc = nlp(“Python ist ein System mit vielen Paketen für die Textanalyse“) 
for token in doc: 
print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, 
token.shape_, token.is_alpha_, token.is_stop) 


Nach dem Start des Programms mit dem Kommando »Run« lädt die Anweisung 
import spacy die zuvor heruntergeladene spaCy-library mit den NLP-Funktionen; spa- 
cy.load(...) lädt eine spezielle Bibliothek für deutsche Texte und weist sie der Variablen 
nlp zu. Mit der Anweisung doc = nlp(<Text>) werden die Tokens (Wörter) im <Text> (Py- 
thon ist ein...) inkl. ihrer Eigenschaften (token.txt, token.lemma, ...) ermittelt. Innerhalb 
einer for-Schleife, die über alle Wörter im <Text> geht, werden die ermittelten Werte 
wortweise angezeigt: 


Tabelle 2: Ausgabe des o.g. Python-Programms für Part Of Speech 


Text Lemma Pos Tag Dep Shape is_alpha is_stop 
Python Python NOUN NN Mo XXXXX True False 
Ist sein AUX VAFIN ROOT xxx True True 
Ein ein DET ART Nk XXX True True 
System System NOUN NN Sb XXXXX True False 
Mit mit ADP APPR Mnr XXX True True 
vielen vieler DET PIAT Nk Xxxx True True 
Paketen Paket NOUN NN Nk XXXXX True False 
Fur fiir ADP APPR Mnr Xxx True True 
Die der DET ART Nk Xxx True True 
Textanalyse Textanalyse NOUN NN Nk XXXXX True False 


Quelle: Die Ausgabe wurde lokal mit dem o.g. POS-Python-Programm erstellt. 


Die Spaltenüberschriften bedeuten“: 


e Text: The original word text. 

e Lemma: The base form of the word. 

« POS: The simple UPOS part-of-speech tag (Wortarten). 

e Tag: The detailed part-of-speech tag. 

+ Dep: Syntactic dependency, i.e. the relation between tokens. 

e Shape: The word shape - capitalization, punctuation, digits. 

e Is_alpha: Is the token an alpha character? 

e  Is_stop: Is the token part of a stop list, i.e. the most common words of the language. 


45 URL: https://spacy.io/usage/linguistic-features und https://spacy.io/api/token#attributes [Zugriff 
30.10.2023] 
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Statt eines direkten eingegebenen Textes kann auch eine Textdatei eingelesen und ana- 
lysiert werden: 


ner_text = open(<file path>). Read() # Datei öffnen und einlesen 
doc = nlp(ner_text) 


<file path> ist dabei der Pfad der Programmdatei. Obwohl spaCy für den Bereich NLP 
entwickelt wurde, können viele der Module für die Vorarbeiten zu Literaturtextanalyse 
genutzt werden. 


Kurzbeschreibung der Eigenschaften von spaCy: 


+ Aufgabe und Funktionen des Tools, siehe oben 

e Ablauf der Nutzung des Tools: Installation (pip install) der gewünschten Funktion 
und Nutzung in Python 

e Plattform: Microsoft Windows®, macOS® und Linux 

e Anforderung an Hardware und Softwareversionen: Installation von Python 

« Entwickler des Tools: Explosion, siehe https://explosion.ai/ 

+ Programmiersprache des Tools: Cython = C + Python 

e Methoden/Algorithmen: siehe oben (hauptsächlich NLP) 

e Im Tool nutzbare Programmiersprache: Python 

e Open Source: ja 

e Lizenzkosten: keine 

e Schnittstellen (Import, Export, Datenbankzugriff, API usw., siehe u.a. https://spac 
y.io/api/). In einem Java-Programm kann ein Python-Programm mit Datenüberga- 
be ausgeführt werden, z.B. um die spaCy-Funktionen in Python in einem Java-Pro- 
gramm zu nutzen. 

e  Konfigurierbarkeit, Mehrsprachigkeit: über Python oder API; 72 Sprachen 

+ Entwicklungsumgebung: Python mit u.a. IDLE 

« Bedienbarkeit: via Pythoneditor 

+  Bedienungsanleitung: umfangreich im Web 

+ Nutzung von Grafiken: ja 

e Support und Hotline: siehe https: //github.com/explosion/spaCy 

e Datenschutz: siehe https://github.com/explosion/spaCy/security/advisories 


4.4 System R und RStudio 


R (System R*°) ist eine Programmiersprache und freie (GNU General Public License der 
Free Software Foundation) Software-Entwicklungsumgebung für statistische Berech- 
nungen und Grafiken. Renthält eine Multiparadigmensprache der vierten Generatio 
n und »bietet eine Vielzahl von statistischen (lineare und nichtlineare Modellierung, 
klassische statistische Tests, Zeitreihenanalyse, Klassifizierung, Clustering, ...) und 


46 Vgl. URL: https://www.r-project.org/ [Zugriff: 09.08.2023] 
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grafischen Techniken an und ist sehr erweiterbar.«® In R können Ablaufe/Prozesse mit 
Hilfe einer mächtigen Programmiersprache definiert und gestartet werden (R-Skripte). 
R läuft auf der UNIX-Plattform, auf Windows und MacOS. 

RStudio ist eine integrierte Entwicklungsumgebung, quasi die GUI für die Statistik- 
software R. Es werden mehrere Fenster angezeigt, die beim Umgang mit R unterstüt- 
zen und mehrere nützliche Werkzeuge enthalten. In R selbst steht eine Konsole mit der 
Möglichkeit, Skripte auszuführen, zur Verfügung. In RStudio werden standardmäßig 
vier Fenster angezeigt, je eins für R Skripte (oben links), für die angelegten Variablen 
und deren Werte (oben rechts), für eine Art Konsole für Kommando- und Skripteinga- 
ben (unten links) und eins für Informationen (unten rechts u.a. Help, packages, Plot- 
Ausgaben). 

R kann um sogenannte packages erweitert werden; diese enthalten umfangreiche Bi- 
bliotheken für spezielle Aufgabenstellungen. Zum Beispiel kann für die Anwendung der 
Stilometrie in der Literaturtextanalyse das package stylo eingesetzt werden (vgl. Wei- 
tin 2021). Die Ergebnisse einer stilometrischen Analyse können grafisch mit Hilfe einer 
Clusteranalyse (Dendogramm) in R oder mit dem Tool Visone (siehe Kapitel 4.5) darge- 
stellt werden: 


»Texte am gleichen Ast sind sich (im Sinne der Stilometrie) stilistisch ähnlich, je mehr 
Gabelungen zwischen zwei Texten liegen, desto unähnlicher sind sie sich«.*® 


Kurzbeschreibung der Eigenschaften von R und RStudio: 


« Aufgabe und Funktionen des Tools: R ist eine freie Softwareumgebung für statisti- 
sche Berechnungen und umfangreichen Visualisierungen (z.B. Grafiken); es ist quasi 
ein lokales System zur Nutzung von Bibliotheken für vielfältige Aufgabenstellungen 

« Vorbereitung: Download, Installation, Ergänzung um packagies/libraries 

e Nutzung des Tools mittels Eingabe von Kommandos oder Erstellung von ablauffähi- 
gen R-Skripts mit Hilfe der internen R-Sprache 

- Plattformen: Microsoft Windows®, macOS® und Linux 

e Entwickler des Tools: R Foundation, eine gemeinnützige Organisation, die im öffent- 
lichen Interesse arbeitet 

e Programmiersprache des Tools: R, Multiparadigmensprache der 4. Generation 

+ Entwicklungssprache: Java 

e Open Source: ja 

e Lizenzkosten und Kosten für Support und Wartung: keine 

e Schnittstellen: Import und Export von Dateien u.a. Texten 

e Konfigurierbarkeit: durch Parameter 

e Bedienbarkeit: mittels umfassender GUI (RStudio) 

e Nutzung von Grafiken: ja, Anzeige von sogen. Plots in einem der Fenster 

+ Support: FAQ und per Mail, Abonnement als supporting member 


47 URL: https://www.r-project.org/about.html [Zugriff: 09.08.2023] 
48 Horstmann 2019b, URL: https://fortext.net/routinen/lerneinheiten/stilometrie-mit-stylo 
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« Datenschutz: siehe https://support.posit.co/hc/en-us/articles/360042593974-R-and 
-R-Package-Security 


Abb. 6: Clusteranalyse von 14 ausgewählten deutschsprachigen Texten mit den 
500 häufigsten Wörtern, s. Anhang mit Stilometrie im Downloadbereich bei 
GitHub®; (Classic Delta Distance, 500 MFW, Culled o %) 
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Quelle: Grafik als plot mit System R stylo erstellt 


4.5 Visone 


Visone” wurde für die Analyse und Visualisierung von sozialen Netzwerken konzipiert 
und ist ein langfristiges Forschungsprojekt. Ein wesentliches Merkmal ist, dass Visone 
sowohl für Expert:innen als auch für Anfänger:innen die Möglichkeit schafft, ihre spezi- 
ellen Netzwerkanalysen durch geeignete visuelle Methoden zu unterstützen. 

Visone wurde in der Studie von Weitin (2021) und anderen das zur Darstellung der 
Ähnlichkeiten von Novellen, Romanen usw. auf der Basis von Distanzmaßen eingesetzt. 


49  https://github.com/LuckeJohannes/Literaturwissenschaft_Informatik 
50 Vgl. URL https://visone.ethz.ch/html/about.html [Zugriff: 09.08.2023] 
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Das verwendete Netzwerkmodell war ein Simmelian Backbone Network. 
Hauptmerkmale der visone-Software sind: 


« interaktive grafische Benutzeroberfläche, zugeschnitten auf soziale Netzwerke 
e innovative Netzwerkvisualisierungen 

e Unterstützung von unbestatigten Beziehungen 

« verfügbar in Java für Windows, Linux und MacOS 

« Import und Export von Standardformaten für soziale Netzwerkdaten 

« Export in Publikationsqualitat in JPEG, PDF, SVG, Metafile und andere Formate 


Abb. 7: Visone-Darstellung des Simmelian Backbone Network von 14 ausgewählten deutschspra- 
chigen Texten (s.o.) mit den 500 häufigsten Wörtern, s. Anhang mit Stilometrie im Downloadbe- 
reich bei GitHub”; (Delta Distance, 500 MFW, Culled o %) 


RilkeAufzeic! 


Quelle: Grafik mit Visone auf Basis der mit R stylo erzeugten Distanzen erstellt. 
Kurzbeschreibung der Eigenschaften von Visone: 


+ Aufgabe und Funktionen des Tools: Visone ist ein Tool, mit dem »Modelle und Algo- 
rithmen zur Integration und Weiterentwicklung der Analyse und Visualisierung von 
sozialen Netzwerken entwickelt werden«, vgl. https://visone.ethz.ch/html/about.ht 
ml 

« Download: das Tool kann heruntergeladen werden. Zum Ausführen ist eine Java Run- 
time erforderlich (jre). 

e Plattformen: Microsoft Windows®, macOS® und Linux 

e Entwickler des Tools: Zunächst war es ein Projekt der Universität Konstanz, inzwi- 
schen wird es von einem Netz von Kooperationen weiterentwickelt, an dem mehrere 
Universitäten beteiligt sind. 

+ Programmiersprache des Tools: Java 

+ Open Source: ja 


51 https://github.com/LuckeJohannes/Literaturwissenschaft_Informatik 
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+ Lizenzkosten und Kosten für Support und Wartung: keine 

e Schnittstellen: Import von Dateien u.a. Adjazenzmatritzen als csv-Datei; Export von 
Grafiken und Dateien 

e  Konfigurierbarkeit: durch viele Einstellungen 

e Bedienbarkeit: mittels umfassender Java-GUI 

+ Nutzung von Grafiken: Die Ausgaben sind meist Grafiken. 

+ Support: durch die DFG (Deutsche Forschungsgemeinschaft), BR 2158/1-1 


4.6 LitAs 


Das vom Verfasser selbst entwickelte Literaturtextanalysesystem LitAs ist zur Analyse 
von Literaturtexten und insbesondere von Dramen einsetzbar. Die Zielsetzung bei der 
Entwicklung des Programms war es neben der Einarbeitung in die Methoden der Lite- 
raturanalyse, ein Tool zu erstellen, das mehrere Analysefunktionen in einem Tool vereint. 
Es besteht aus einem in Java programmierten Analyseteil und einem Visualisierungsteil 
auf der Basis von Microsoft Excel©. Die Visualisierung umfasst u.a. ein Verteilungsdia- 
gramm der Schlüsselwörter bzw. Dramenfiguren, eine Wordcloud sowie eine Konfigu- 
rations- und Adjazenzmatrix inkl. Grafiken bei Dramen. Im vorliegenden Artikel sind 
einige der Visualisierungen zu sehen (s.o). 

Die Steuerung der Analyse wird mit einer Property-Datei geregelt, in der pro Steue- 
rungselement eine Zeile mit vorgegebenen Werten enthalten ist, z.B. 


Nachbarn=5 
MinAehnlichkeit=70 (%) 
Drama=ja 


Die erste Zeile bedeutet, dass je 5 linke und rechte Nachbarn als Kontext ermittelt wer- 
den, die zweite gibt für die Ähnlichkeitssuche eine Prozentwahrscheinlichkeit für die 
Wortähnlichkeit vor, die dritte sagt aus, dass es sich um ein Drama handelt. Das Ergeb- 
nis der Analyse wird in eine txt-Datei ausgegeben, wobei die Daten für die ExcelO-Vi- 
sualisierung bereits passend zum Kopieren in die Exceldatei aufbereitet sind. 

LitAs hat folgende Funktionen: 


« Konfiguration mit Properties 

e Import von Literaturtexten mit Tokenisierung, Lemmatisierung 

« Export der Analyseergebnisse in txt-Datei 

+ Nutzung einer Stoppwortliste 

« Ermittlung von Statistikwerten u.a. die (absolute) Häufigkeit der Wörter, absteigend 
sortiert 

e  Wortahnlichkeiten zu vorgebbaren Schlüsselwörtern mit Ähnlichkeits-Prozent 

« Kontext der Schlüsselwörter mit n Nachbarn (analog zu CATMA KWIC) mit Häufig- 
keiten, absteigend sortiert 

e Visualisierung mit Wordcloud, Verteilung der Schlüsselwörter, Anzahl Verteilungs- 
bereiche vorgebbar (gleich lang oder gemäß der Szenenstruktur), Distributions- 
graph 
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Bei Dramen Verteilung der Figuren in den Szenen; welche Figur tritt mit welcher wie 
oft auf, Konfigurations- und Adjazenzmatrix inkl. Netzwerkgrafik 


Kurzbeschreibung der Eigenschaften von LitAs: 


5. 


Aufgabe und Funktionen: siehe oben 

Plattform: Microsoft Windows© 

Entwickler: der Verfasser des vorliegenden Beitrags 

Programmiersprache: Java, Excel/VBA© für Visualisierung 

Lizenzkosten und Kosten für Support und Wartung: keine (Excel© vorausgesetzt) 
Schnittstellen: Import von Texten, Export von Analyseergebnissen 
Konfigurierbarkeit: durch Property-Datei 

Bedienbarkeit: mittels Pflege der Property-Datei und Import der Ergebnisse in Ex- 
cel©-Templates 

Bedienungsanleitung: ja, kurz (erhaltlich beim Verfasser) 

Nutzung von Grafiken: ja 

Support: ja (beim Verfasser) 

Datenschutz: nach Vereinbarung 

Die Lemmatisierung ist durch Nutzung der betr. spaCy-Funktion nlp0 integriert 
(Zugriff aus Java auf Python-Programm) 

Methoden/Algorithmen: Tokenisierung, Konfigurations- und Adjazenzmatrix (s. 
Kap. 3.5), Wortähnlichkeit mit Jaccard-Koeffizient”” und mit Levenshtein-Distanz” 
Open Source: ja (erhältlich beim Verfasser dieses Beitrags) 


Plattformen, Projekte und Studien 


Zur umfassenden Literaturtextanalyse wurden mehrere Projekte und Studien an Uni- 


versitäten oder Forschungseinrichtungen definiert und gefördert. 


Um Forschungsergebnisse zu speichern und auszutauschen, aber auch um Tools, 


Dokumentationen, Lehrinhalte usw. zur Verfügung zu stellen, haben sich eine Reihe von 


Plattformen etabliert, die für Forschung und Lehre genutzt werden 


Zunächst werden die wichtigsten Plattformen im Bereich DH kurz vorgestellt, dann 


werden folgende Projekte und Studien beleuchtet: 


Projekt heureCLEA (u.a. mit automatischen Annotationen anhand von jüngeren 
KI-basierten Technologien) 

Studie von Konle, Jannidis et al. (2021) (Disruptionen der Literaturwissenschaft am 
Beispiel der DVjs) 

Projekt GerDraCor (Netzwerkanalysen von deutschen Dramen, eingebunden in das 
europäische/internationale Projekt dracor.org mit einer Vielzahl von Analysewerk- 
zeugen) 


Vgl. URL: https://statologie.de/jaccard-koeffizient-python/ [Zugriff: 04.11.2023] 
Vgl. URL: https://mathe.zone/data/ausarbeitungen/levenshtein-distanz.pdf [Zugriff: 04.11.2023] 
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Projekt DARIAH (Schaffung einer digitalen Forschungsinfrastruktur für die Geistes- 
und Kulturwissenschaften) 

Projekt 3DH (Visualisierung und Exploration geisteswissenschaftlicher Daten in 
den Digital Humanities unter besonderer Berücksichtigung von 3D-Visualisie- 
rungsmethoden) 

Studie(n) von Weitin (2021, Digitale Literaturgeschichte. Eine Versuchsreihe mit sie- 
ben Experimenten) 


5.1 Plattformen und Websites 


Folgende Plattformen werden im Bereich DH für Forschung und Lehre genutzt; hier nur 


die bekanntesten: 


Forschungsdaten.info’* ist ein deutschsprachiges Informationsportal zu For- 
schungsdatenmanagement (FDM). Diese Plattform wird von einer Vielzahl von 
deutschen Universitäten und Forschungseinrichtung unterstützt (Partner). 

Lehr- und Lernumgebungen für Digital Humanities” in forschungsdaten.info. Hier 
werden u.a. Links und Dokumentationen zu Programmiersprachen und -umgebun- 
gen (Python, System R, JupiterLab) angeboten. 

Base4nfdi: »Base4NFDI creates the basis for better of research data.« °° »Die Na- 
tionale Forschungsdateninfrastruktur (NFDI) wird gemeinsam von Bund und Län- 
dern finanziert und ist als bundesweit verteiltes Netzwerk organisiert. Zielder NFDI 
ist der strategische Ausbau des Forschungsdatenmanagements in Deutschland, um 
Forschungsdaten zur erschließen und langfristig bereitzustellen. <” 

DH2go ist eine serverbasierte Lehr- und Lernumgebung an der Universität Stutt- 
gart, um »Forschungssoftware, Trainingsdaten und Videos zentralisiert zur Verfü- 
gung zu stellen, wobei das gesamte System auch für die Nachnutzung bereitgestellt 
werden soll. DH2go eignet sich insbesondere zur Entwicklung in Python und R, zur 
Textverarbeitung (u.a. LaTeX, XML), zur Datenbankerstellung (MySQL, SQLite) und 
zur Visualisierung (Netzwerke mit Gephi, geografische Daten mit QGIS, diverse Dar- 
stellungen mit Python und R).«* 


54 
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Vgl. URL: https://forschungsdaten.info/ [Zugriff: 05.11.2023] 

Vgl. URL: https://forschungsdaten.info/wissenschaftsbereiche/geisteswissenschaften/tools-und- 
services/lehr-und-lernumgebungen-fuer-digital-humanities/ [Zugriff: 05.11.2023] 
https://base4nfdi.de/ 

URL: https://forschungsdaten.info/fdm-im-deutschsprachigen-raum/deutschland/nfdi-national 
e-forschungsdateninfrastruktur/ [Zugriff: 05.11.2023]. »Mit den Konsortien NFDI4Culture, NF- 
DI4Objects, NFDI4Memory und Text+ sind vier geisteswissenschaftliche Konsortien an dem natio- 
nalen Vorhaben beteiligt.« (https://forschungsdaten.info/wissenschaftsbereiche/geisteswissensc 
haften/nfdi-konsortien/) [Zugriff: 03.03.2024] 

URL: https://forschungsdaten.info/wissenschaftsbereiche/geisteswissenschaften/tools-und-servi 
ces/lehr-und-lernumgebungen-fuer-digital-humanities/dh2go/ [Zugriff: 05.11.2023] 
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DHVlab ist eine weitere Infrastruktur für Lehre und Forschung an der Universitat 
München.” 

GitHub ist eine Plattform, auf der eigene Daten und Programme zur Verfügung 
gestellt werden können. Außerdem bietet sie die Möglichkeit zur Zusammenarbeit 
inkl. Versionskontrolle.°° 

Mastodon ist ein Netzwerk, das sich als Alternative zu X (ehemals Twitter) etabliert 
hat. »Mastodon-Nutzer können kurze Texte, Bilder, Videos und andere Inhalte ver- 
öffentlichen, anderen Nutzern folgen und Beiträge kommentieren«™ 

Zenodo ist ein vom CERN Data Center angebotenes kostenloses Open-source Repo- 
sitory, aufdem wissenschaftliche Daten, Software und Forschungsartefakte abgelegt 
und anderen zur Verfügung gestellt werden können. Dadurch sollen wissenschaft- 
liche Prozesse in einem nicht-kommerziellen Umfeld unterstützt und beschleunigt 
werden.” 

Eine Alternative zu Zenodo ist der kommerzielle Datenspeicherdienst Figshare.” 
Zotero ist »ein kostenloses, benutzerfreundliches Tool, das Ihnen hilft, Forschungs- 
ergebnisse zu sammeln, zu organisieren, zu kommentieren, zu zitieren und zu tei- 
len.«°* U.a. ist auch eine Bibliotheksverwaltung zoterobib enthalten. Das Tool steht 
für viele Betriebssysteme zur Verfügung und kann heruntergeladen und installiert 
werden.“ 


5.2 Projekt GerDraCor® 


Das Drama Corpus bzw. das German Drama Corpus (vgl. Fischer u.a. 2022) enthält ei- 


ne Vielzahl von Dramen im TEI- oder txt-Format, wobei im deutschen Korpus ca. 500 


Dramen gelistet sind. Die Texte können heruntergeladen werden, um sie lokal zu ana- 


lysieren. Das Projekt DraCor enthält auch eine Reihe von Tools und grafische Anzeigen/ 


Graphen, die für die Analyse der Dramen genutzt werden können. Detaillierte Informa- 


tionen zum Projekt finden sich in forText (Horstmann 2020). 


Zu erwähnen ist noch eine System R-Schnittstelle (API) zu DraCor®’, womit direkt 


aus Rauf DraCor zugegriffen werden kann, um Texte oder Metadaten in geeignete R-Da- 


tenstrukturen herunterzuladen. 
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Vgl. URL: https://forschungsdaten.info/fdm-im-deutschsprachigen-raum/deutschland/bayern/se 
rviceangebote/digital-humanities-virtual-laboratory-dhvlab/ [Zugriff: 05.11.2023] 

Vgl. URL: https://github.com/ [Zugriff: 05.11.2023] 

URL: https: //www.tagesspiegel.de/gesellschaft/beliebte-alternative-zu-twitter-wie-funktioniert- 
das-netzwerk-mastodon-9059965.html [Zugriff: 04.11.2023] 

Vgl. URL: https://zenodo.org/ [Zugriff: 05.11.2023] 

Vgl. URL: https://figshare.com/ [Zugriff: 05.11.2023] 

URL: https://www.zotero.org/ [Zugriff: 05.11.2023] 

Vgl. URL: https://hochschulcloud.nrw/ [Zugriff: 05.11.2023] 

URL: https://dracor.org/, https://dracor/ger.org/, [Zugriff: 31.10.2023] 

URL: https://github.com/dracor-org/rdracor/ [Zugriff: 31.10.2023] 
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Grafische Anzeigen: 


e Network: Netzwerk der gemeinsamen Auftritte; d.h. die Figuren eines Dramas kom- 
men in der gleichen Szene vor, wobei die Dicke der Verbindung die Anzahl der ge- 
meinsamen Auftritte repräsentiert. 

e Relations: Visualisierung von Verwandtschafts- und anderen Beziehungsdaten 

e Speech distribution: Verschiedene Möglichkeiten der Visualisierung der Sprachver- 
teilung 

e Full text: Voller Text im TEI-Format 

« Downloads: Weitere spezielle Downloads 


Tools: 


« API (GET, PUT und Administrator-Funktionen) 

« SPAROL (SQL-Schnittstelle) 

+ Easy Linavis: Simple Network Visualization for Literary Texts; erstellt einen Netz- 
werkgraphen zu gemeinsamen Auftritten von Figuren in Dramen und generiert dar- 
aus eine csv- Datei mit den Beziehungen 

e Shiny Dracor mit der Auswahl eines Dramas und dann Anzeigen von 
o Graph (Gemeinsame Auftritte der Personen als Netzwerk-Graph mit Farben) 

o Edges (Gemeinsame Auftritte als Tabelle mit Zahlen) 

o Vertices (Tabelle mit Zwischenräumen) 

o Play Info: Ein weiteres Tool für die grafische Darstellung der gemeinsamen Auf- 
tritte‘® 


5.3 Projekt heureCLEA 


HeureCLEA war ein im Zeitraum 2013 bis 2016 vom BMBF gefördertes, Projekt, bei 
dem Literaturwissenschaftler:innen an der Universität Hamburg (Projektleiter: Jan 
Christoph Meister) und Informatiker:innen an der Universität Heidelberg (Projektlei- 
ter: Michael Gertz) interdisziplinär zusammen arbeiteten.‘ Es wurde das Ziel verfolgt, 
»die Möglichkeiten zu erforschen, die oft behauptete methodische Kluft zwischen 
qualitativer, hermeneutisch inspirierter Textanalyse in der Literaturwissenschaft und 
automatisierten, auf maschinellem Lernen basierenden Ansätzen in der Informatik, die 
textuelle Phänomene statistisch modellieren, zu überbrücken« (vgl. ebd.). »Diese Kluft 
existiert, wie wir beweisen konnten, nicht wirklich: Unsere beiden Herangehensweisen 
an Text schließen sich nicht gegenseitig aus, sondern stellen vielmehr komplementäre 
Positionen in einem methodologischen Kontinuum dar« (vgl. ebd.). 

HeureCLEA umfasste zwei Hauptarbeitspakete: 


68 Fur nahezu alle Dramen ist unter der URL https://weltliteratur.net/webweb/ger.html [Zugriff: 
28.10.2022] ein konfigurierbares Simmelian Backbone Network zu finden, siehe Kapitel zu Visio- 
ne. 

69 Vgl. URL https://heureclea.de/index.html [Zugriff: 09.08.2023] 
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« (1) Korpuserstellung/kollaborative manuelle Annotation und 
e (2) maschinelles Lernen/automatische Annotationen (vgl. ebd.). 


Das Projekt heureCLEA verbindet Fragestellungen aus der Narratologie der Literatur- 
wissenschaft und der Sprachverabeitung (Natural Language Processing) aus der Informa- 
tik zur »Entwicklung eines heuristischen Moduls, das die Funktionalität der webbasier- 
ten Textanalyse und -annotationsumgebung CATMA 4 erweitert, indem es Vorschläge 
zu narratologischen Phänomenen in einem Text anbietet« und »neue[.] Data-Mining- 
Methoden für die bislang unbearbeitete Domäne literarischer Texte« (Gius/Jacke 2015) 
integriert. 

In einem kollaborativen manuellen Annotationsansatz erstellten geschulte Annota- 
tor:innen ein annotiertes Korpus von beträchtlicher Komplexität. Es wurde das Anno- 
tationswerkzeug CATMA genutzt. Drei der sechs manuell annotierten narratologischen 
Kategorien wurden automatisiert, wobei das von Menschen erstellte Markup als Trai- 
ningskorpus für die Maschine diente. Drei dieser automatischen Annotationsfunktio- 
nen, wurden anschließend in CATMA integriert.”° 


5.4 Studie von Konle, Jannidis et al. (2021) 


Konle, Jannidis u.a. veröffentlichten 2021 einen Artikel »Disruptionen der Literaturwis- 
senschaft am Beispiel der DVjs< in Melusina Press (vgl. Konle u.a. 2021). 

Ein Ziel war dabei eine exemplarische Prüfung der Brauchbarkeit von Verfahren der 
digitalen Textanalyse in der Literaturwissenschaft (vgl. ebd., S. 1). Dazu wurde versucht, 
Disruptionen (Umbrüche, Strukturbrüche) in den Texten bzw. Beiträgen der DVjs von 
1923 bis 2009 zu ermitteln (vgl. ebd., S. 6). Für die Erkennung von Disruptionen wurden 
Wort-Verteilungen (Häufigkeiten) mithilfe von Distanzmaßen der Stilometrie, z.B. der 
euklidischen Distanz, über einen historischen Entwicklungsprozess hinweg verwendet 
(vgl. ebd., S. 1). Dazu wurde ein Korpus gebildet, der die in der DVjs (Deutsche Vierteljah- 
reszeitschrift für Literaturwissenschaft und Geistesgeschichte) veröffentlichten Artikel 
von 1923 bis 2009 beinhaltete. Daraus wurden Texte mit ca. 8000 Wörtern ausgewählt, 
von denen die ersten 3000 Wörter genommen wurden. Zusätzlich wurde das Tool Flair 
eingesetzt, um Eigennamen mit besserer Qualität zu erkennen. »Da wir Disruptionen 
inhaltlicher Natur suchen, werden die Wörter zusätzlich auf Substantive und Adjektive 
beschränkt, um stilistische Veränderungen möglichst abzuschwächen« (ebd., S. 7). 

Es wurden nun die Häufigkeiten dieser Wörter und deren Veränderung über die Zeit 
untersucht. Dazu wurde folgendes Vorgehen gewählt: 


e Bildung von 2 Textgruppen: 1. die ersten 10 Jahre 0-9, 2. die nächsten 10 Jahre 10-19 
e Tokenisierung, Lemmatisierung, Satztrennung und POS-Tagging wurden mittels 
spaCy durchgeführt. 


70 Vgl. URL: https://www.sim.uni-hamburg.de/germanistik/forschung/forschungsprojekte/heurecle 
a.html [Zugriff: 31.10.2023] 
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e Nun wurde untersucht, wie stark sich die Texte des ersten Fensters von denen des 
zweiten unterscheiden; dazu wurde das euklidische Abstandsmaß (u.a.) mit den 
5000/3000 häufigsten Wörtern genutzt. 

« Annahme: Falls die Unterschiede sehr groß sind, dann liegt ein fachwissenschaftlich 
relevanter Umbruch vor. 

e Anschließend wurden die beiden Zeitfenster um ein (später vier) Jahr(e) nach rechts 
verschoben und die Abstände erneut gemessen. 


Die Texte wurden also »als Menge von Worthäufigkeiten repräsentiert [...], [so dass] sich 
ein Text [...] als Vektor in einem Raum mit ebenso vielen Dimensionen wie unterschied- 
lichen Wörtern« (ebd., S. 8) darstellen lässt (ebd., S. 8). Damit entspreche jedes Wort ei- 
ner Vektor-Dimension, was die Verwendung von geometrischen Maßen wie euklidische 
oder Cosinus-Distanz möglich mache. 


Gleichzeitig stellt ein solcher Vektor, vorausgesetzt er enthält relative und keine ab- 
soluten Worthäufigkeiten, auch eine Verteilung über die Wahrscheinlichkeit für das 
zufällige Ziehen eines bestimmten Wortes dar (ebd., S. 8). 


Da es keine valide Information darüber gibt, ob tatsächlich Disruptionen vorliegen, und 
somit das Ergebnis der quantitativen Analyse nicht bewertet werden kann, wurde zu- 
sätzlich eine Simulation vorgenommen. Dazu wurde ein künstliches Korpus erzeugt, der 
der Struktur der DVjs möglichst nahekommt, eine überschaubare Anzahlan Parametern 
hat und in den eine Disruption induziert wurde. Die künstlichen Texte wurden auf der 
Basis des Zipf’schen Gesetzes modelliert. Das Zipf’schen Gesetz besagt, dass wenn die 
Wörter eines Textes nach ihrer Häufigkeit geordnet sind, die Wahrscheinlichkeit p ihres 
Auftretens umgekehrt proportional zu ihrem Platz n (Rang) auf der Häufigkeitsliste ist: 
p(n) » 1/n.” 

Mit diesem künstlichen Korpus wurde wieder das 0.g. Vorgehen wiederholt, um her- 
auszufinden, ob die induzierte Disruption gefunden wird. Dabei wurden verschiedene 
Distanzmaße (Euklidische und Cosinus Distanz) und auch andere Methoden wie Jensen- 
Shannon Divergenz, Pearson Korrelation und Machine Learning genutzt.” Um das Er- 
gebnis noch zu optimieren, wurden zwei weitere komplexere Simulation mit Variation 
der künstlichen Texte durchgeführt. 

Als Fazit wurde u.a. beobachtet, dass die Euklidische Distanz das beste Ergebnis 
bringt, wobei aber relativiert wurde, dass »die konzeptionelle Schlichtheit der Experi- 
mente eine künstliche Überbewertung der euklidischen Distanz erzeugt« (ebd., S. 15). 

Die sich ergebende Methodik (Messung der Textdistanzen mit dem euklidischen Di- 
stanzmaß über versetzte Zeitfenster) wurde zum Schluss auf die DVjs angewendet. 

Dabei wurde folgendes Ergebnis ermittelt: 


71 Vgl. URL: https://bernardzitzer.com/de/zipfsche-gesetz-zipfs-law/ [Zugriff: 06.11.2023] 
72 Vgl. zu Einsatz und »Erfolg« diverser Distanzmaße, z.B. bei der Autorschaftsattribution, Jannidis 
u.a. (2021), S.14 und Büttner u.a. (2017). 
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Die Messung zeigt eine leicht erhöhte Distanz in den späten 1960er und den 1970er 
Jahren, die mit einem der in der Fachgeschichte beschriebenen Einschnitt, dem Szien- 
tifizierungsschub, zusammenfällt. Ansonsten ergibt sich hier [...] ein erstaunlich ho- 
mogenes Bild. Diese Beobachtung kann mehrere Gründe haben: 

1. Die Veränderung der Aufsätze ist eher kontinuierlicher als disruptiver Natur. 

2. Der Einfluss unbeobachteter Faktoren auf die Gestalt der Texte ist so groß, dass der 
untersuchte Parameter (Erscheinungsdatum) überlagert wird (ebd., S. 15). 


Die Plausibilität der 2. Beobachtung wurde noch mit einem Topic Modeling verifiziert, 
das zwar keine Disruption, aber Trends und periodische Wiederholungen zeigte. Dar- 
aus wurde geschlossen, »dass die Verteilung von Worthäufigkeiten innerhalb eines Jahr- 
gangs der DVjs multifaktoriell geprägt ist« (ebd, S. 17). Als Fazit wurde u.a. festgestellt, 
dass es »auch problematisch [sei], Aussagen zur Fachgeschichte aufgrund von nur einer 
Zeitschrift zu treffen« (ebd., S. 18). 

Die Empfehlung ist, dass »künftige Simulationsstudien die Komplexität multifak- 
torieller Eigenschaften, wie sie die Topic Analyse der DVjs deutlich gemacht hat, besser 
abbilden« (ebd. S. 18) sollten u.a. den Aspekt der Autorschaft oder realistische Verteilun- 
gen bei den Texten. 

Ferner wurde in diesem Zusammenhang die Unmöglichkeit einer systematischen 
Validierung durch annotierte Daten problematisiert und ein alternativer Weg der Aus- 
wertung durch Simulation vorgeschlagen. 

In dem Projekt wurden dabei folgende Methoden und Tools genutzt: 


Methoden: 


e Topic Modeling 

e Tokenisierung 

+ Lemmatisierung 

+ POS-Tagging (Part-of-speech-Tagging) 
e Zipfsches Gesetz 

+ Distanzmessung von Texten 


Neben den erwähnten Methoden wurden weitere Verfahren genutzt: Mahalanobis (Di- 
stanzmaß zwischen Punkten in einem mehrdimensionalen Vektorraum), Bhattacharya 
(Unterscheidung mehrerer mit demselben Wort bezeichneter Begriffe) und Kullback- 
Leibler Divergenz (bezeichnen ein Maß für die Unterschiedlichkeit zweier Wahrschein- 
lichkeitsverteilungen) sowie Manhattan Distanz. Die Manhattan Distanz wird verwen- 
det, um die Unähnlichkeit zwischen zwei beliebigen Vektoren zu messen und wird häufig 
in Algorithmen für maschinelles Lernen eingesetzt (vgl. ebd., S. 8f). 


Tools: 
e Lyra (Schumacher/Becker 2021), ein Visualisierungstool zur Darstellung von Textda- 


ten 
e CATMA(s. Kap. 213) 
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e  spaCy (vgl. Honnibal u.a. 2020) für Tokenisierung, Lemmatisierung, Satztrennung 
und POS-Tagging 

+ Support Vektor Maschinen (SVM)” für überwachtes maschinelles Lernen zur Text- 
klassifikation 


5.5 Projekt DARIAH™ 


DARIAH-DE (Digital Research Infrastructure for the Arts and Humanities) ist »eine In- 
itiative zur Schaffung einer digitalen Forschungsinfrastruktur für die Geistes- und Kul- 
turwissenschaften«.” Insbesondere werden Materialien für Lehre und Weiterbildung 
im Bereich der Digital Humanities entwickelt. Deshalb unterstützt DARIAH-DE die mit 
digitalen Methoden und Verfahren arbeitende Forschung in den Geistes- und Kultur- 
wissenschaften mit einer Forschungsinfrastruktur, die i. W. aus vier Säulen besteht (vgl. 
ebd.): 


e Lehre 

« Forschung 

+ Forschungsdaten 

e Technische Komponenten 


Als Partner in DARIAH-EU tragt DARIAH-DE ferner dazu bei, europaweit state-of-the-art 
Aktivitäten der Digitalen Geisteswissenschaften zu bündeln und zu vernetzen. DARIAH 
wurde von 2011 bis 2021 vom BMBF gefördert (vgl. ebd.). 

DARIAH bietet eine Vielzahl von Diensten und Werkzeugen an u.a. 


e _ Online-Tool zur kollaborativen Texterstellung nach dem Motto: »Gemeinsam gleich- 
zeitig an Texten arbeiten« 

« Verwaltung von Mailinglisten für den Informationsaustausch innerhalb der For- 
schungsgemeinde 

e Modellierung von Datenstrukturen: »Die Datenmodellierungsumgebung (DME) ist 
ein Werkzeug zur Modellierung und Verknüpfung von Daten. Mit Hilfe der DME 
werden Datenmodelle und Zuordnungen zwischen ihnen definiert und in Form von 
Schnittstellen (REST-API) bereitgestellt«”® 

e Helpdesk 

e MYSQL-Datenbank-Hosting 

e TopicsExplorer (Tool für das Topic Modeling) 

.  wv.a.m. 


73  Vgl.https://Imb.informatik.uni-freiburg.de/lectures/mustererkennung/WS0506/10_ME.pdf 
[Zugriff: 04.11.2023] 

74 URL: https://de.dariah.eu/ [Zugriff: 01.11.2023] 

75 Digital Research Infrastructure for the Arts and Humanities, »In cooperation with DARIAH-DE« 
URL: https://de.dariah.eu/ [Zugriff: 27.10.2022] 

76 URL: https://marketplace.sshopencloud.eu/tool-or-service/YxrA2F [Zugriff: 01.11.2023, übers. v. 
JH] 
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DARIAH TopicsExplorer 

Der DARIAH TopicsExplorer” ist ein Tool für die Themenmodellierung, das Themen (To- 
pics) als Wahrscheinlichkeitsverteilungen über den gesamten Wortschatz eines Textkor- 
pus ermittelt (LDA-basierte Textanalyse). Der TopicsExplorer hat dabei einen relativ ein- 
fachen Arbeitsablauf. Zur Nutzung kann man ihn (z.B. für Windows) herunterladen und 
mit eigenen Literaturtexten testen. 

Im Folgenden wird ein Beispiel gezeigt, das inkl. Tool, Kurzdokumentation und 
Beispieldaten von GitHub heruntergeladen wurde.” Zur Ermittlung der Topics/Themen 
werden Trainingsdaten verwendet, die in einem KI-Prozess zum Lernen herangezogen 
werden. Es handelt sich um folgende 10 zufällig aus dem Novellenschatz ausgewählte 
Texte (siehe die Studie von Weitin 2021 in Kap.5.7): 


+ Brentano.txt: Geschichte vom braven Kasperl und dem schönen Annerl 
- Droste.txt: Die Judenbuche 

e Eichendorff.txt: Die Glücksritter 

e Goethe.txt: Die neue Melusine 

e  Keller.txt: Romeo und Julia auf dem Dorfe 

e  KRleist.txt: Die Verlobung von St. Domingo 

e Kurz.txt: Die beiden Tubus 

+ Schreyvogel.txt: Samuel Brinks letzte Liebesgeschichte 

e Stifter.txt: Brigitta 

e Storm.txt: Eine Malerarbeit 


Es werden folgende Parameter vorgegeben: 


e Anzahl Topics/Themen (hier 10) 

e Anzahl der Iterationen des Lernprozesses (hier 100) 

+ Stoppwortliste mit 878 deutschen Stoppwörtern (wurde mit dem Download mitge- 
liefert) 


Was noch fehlt, ist das Ausblenden der bekannten Namen, die das NER-Verfahren liefern 
würde. Das konkrete Ergebnis des TopicsExplorer sind zum einen die Topics/Themen, 
die nach der höchsten Wahrscheinlichkeit sortiert angezeigt werden (siehe Abb. 8) (wobei 
ein Topic ja aus einer Kombination von Wörtern besteht). 

Man kann nun per Klick auf ein Topic durch Themen und Dokumente navigieren, 
sich ähnliche Themen und Dokumente anzeigen lassen und Auszüge aus den Original- 
texten lesen. Wenn man z.B. auf eines der Topics klickt, sieht man »die 15 relevantesten 
Wörter für dieses Thema, sowie die 10 relevantesten Dokumente, deren Balkenbreite die 
jeweilige Gewichtung angibt, und die drei ähnlichsten Themen, bei denen die Kosinus- 
ähnlichkeit zwischen allen Themenvektoren berechnet und gewichtet wurde« (Anzeige 
des Tools bei dieser Aktion). 


77 Vgl. DARIAH TopicsExplorer — Themen und Inhalte von Textsammlungen erkunden, URL: https:// 
de.dariah.eu/text-analysis-with-topic-models [Zugriff: 27.10.2022] 
78 URL: https://dariah-de.github.io/TopicsExplorer/ [Zugriff: 01.11.2023] 
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Man kann überdies die folgende Dokument-Themen-Verteilung (Document-Topic 


Distribution) betrachten”: 


Abb. 8: 10 Topics in 10 Dokumenten 


VATER, MUSSTE, GESEHEN, ... 
HERZ, JUNGE, ZIEMLICH, ... 
AUGEN, RIEF, STAND, ... 

HAND, ZOG, SCHLOSS, ... 
GRETCHEN, PAUL, MAX, ... 

SALI, VRENCHEN, HÄNDE, ... 
NACHT, FRAGTE, PLÖTZLICH, ... 
FRIEDRICH, MUTTER, WARD, ... 
MUTTER, TONI, FREMDE, ... 
PFARRER, BERG, BURG, ... 


Quelle: Aus den Ergebnisdaten vom Tool generierte Grafik 


79 URL: https://dariah-de.github.io/TopicsExplorer/ [Zugriff: 01.11.2023] 
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Abb. 9: Dokument-Themen-Verteilung®° 
Storm 
Stifter 


Schreyvogel 


Kleist 
Keller 
Goethe 
Eichendorff 
Droste 


Brentano 


Quelle: vom Tool generierte Grafik 


Jedes Dokument besteht bis zu einem gewissen Grad aus jedem Thema, was eine der 
theoretischen Annahmen von Themenmodellen ist« (Anzeige im Tool). Kleine Werte 
sind aus Griinden der Visualisierung auf null gerundet. »Die Visualisierung der Doku- 
ment-Themen-Verhältnisse in einer Heatmap zeigt die Art von Information, die [...] 
über die reine Exploration hinaus[geht] und [...] verwendet werden [kann], um the- 
matische Entwicklungen über eine Reihe von Texten aufzuzeigen, ähnlich wie ein dy- 
namisches Themenmodell (Anzeige im Tool).®' 


Kurzbeschreibung der Eigenschaften von DARIAH TopicsExplorer (nach dem Rezensi- 
onsschema in Kap. 3): 


« Aufgaben und Funktionen des Tools (s.o.) 

e Plattformen: Microsoft Windows®, macOS®© und Linux 

« Entwickler des Tools: DARIAH.de wird von 16 Instituten getragen, die von der SUB 
Göttingen koordiniert werden?” 

+ Programmiersprache: Python 

« Datenbank: SQLite 


80 URL: https://dariah-de.github.io/TopicsExplorer/ [Zugriff: 01.11.2023] 
81 URL: https://dariah-de.github.io/TopicsExplorer/ [Zugriff: 01.11.2023] 
82 Vgl. URL https://de.dariah.eu/impressum [Zugriff: 09.08.2023] 
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e Open Source: ja 

e Lizenzkosten und Kosten für Support und Wartung: keine 

e Konfigurierbarkeit: ja 

e Schnittstellen: Import von Texten, Exportfunktion 

e Bedienbarkeit: mittels einfacher GUI 

e Nutzung von Grafiken: ja 

e Support: fachlicher und technischer Support per Mail, siehe https://de.dariah.eu/su 


pport 
e Datenschutz: siehe https://de.dariah.eu/datenschutz 


5.6 Projekt 3DH 


3DH, Three-Dimensional Dynamic Data Visualisation and Exploration for Digital Hu- 
manities Research”? war ein Projekt der Universität Hamburg von 2016 bis 2018. »For- 
schungsgegenstand ist die dynamische Visualisierung und Exploration geisteswissen- 
schaftlicher Daten in den Digital Humanities unter besonderer Berücksichtigung von 
3D-Visualisierungsmethoden« (Meister 2016). 

Mit 3DH sollte eine »theoretisch-methodische Orientierung« (Meister 2016) für Vi- 
sualisierungen geschaffen werden, die auf die konzeptionellen Bedürfnisse der Geistes- 
wissenschaftler:innen abgestimmt sind. Dazu sollten Prototypen von Visualisierungs- 
werkzeugen entwickelt werden, die als Demonstrationsobjekte dienen können. In den 
letzten Jahren hat der Einsatz digitaler Methoden im Rahmen von Digital Humanities- 
Projekten immer mehr Daten produziert, so dass die Big data-Technik für die Geistes- 
wissenschaften zunehmend relevant wird (vgl. Meister 2016). 

Die Kernaussage dort ist, dass es zwar schon viele Visualisierungstools gibt (Word 
Clouds, Diagramme zur Statistik, u.v.a.m.), die beim ersten Betrachten einen gewis- 
sen Wow-Effekt erzeugen, »methodisch wie epistemologisch jedoch letztlich opak 
bleib[en].« (Meister 2016) 

Die im 3DH-Projekt gelisteten Software-Tools werden über die Seite des Projekt- 
leiters Jan Christoph Meister angezeigt (vgl. ebd.), beschrieben und stehen auch zum 
Download bereit. Es handelt sich um folgende Tools 


« Tempusmarker »für die Annotierung (»Tagging«) von Temporaloperatoren und an- 
deren auf der Textoberfläche nachweisbaren Textbestandteilen, die wir als Konstitu- 
enten des sog. Temporalitatseffekts definieren<** 

« TempusParser und Plotter mit flash-demo; »ein neuer Visualisierungsansatz, um die 
Eigenart der Verarbeitung textuell reprasentierter Zeitinformation darzustellen, wie 
sie insbesondere in Ereigniserzählungen gegeben sind«°° 

« EpiTest & EventParser®® 


83 Vgl. URL: https://threedh.net/ [Zugriff: 28.10.2022] 

84 URL: https://jcmeister.de/tempusmarker/ [Zugriff: 01.11.2023] 

85 URL: https://jcmeister.de/tempusparser-plotter/ [Zugriff: 01.11.2023] 
86 Vgl. URL: https://jcmeister.de/epitest-eventparser/ [Zugriff: 01.11.2023] 
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Das Programm EpiTest wurde entwickelt, um eine kombinatorische Analyse von *.esf- 
Dateien, die von EventParser erzeugt wurden, durchzuführen. Der Kern des Programms 
besteht aus mehreren Algorithmen, die gespeicherte Datenbanken von Verbindungs- 
EVENTS suchen, die den Kategorien in der Episodenmatrix entsprechen (vgl. ebd.) 


5.7 Studie(n) von Weitin (2021) 


Im Jahr 2021 veröffentlichte Thomas Weitin eine Reihe von Experimenten der Literatur- 
textanalyse mit digitalen Methoden mit dem Titel Digitale Literaturgeschichte, eine Versuchs- 
reihe mit sieben Experimenten (vgl. Weitin 2021). Darin beschreibt er die Ziele, das Vorge- 
hen und die Ergebnisse der anhand von digitalen Methoden und Tools durchgeführten 
Experimente. 

Im ersten Experiment sollte ermittelt werden, wie groß die Unterschiede zwischen je 
zwei Novellen aus einem Korpus sind, das aus 86 Novellen des Deutschen Novellenschatzes 
besteht (ab 1871, Herausgeber Paul Heyse und Hermann Kurz). Eine der Novellen ist Die 
neue Melusine (geschrieben 1807/1808) von Goethe. Es soll speziell ermittelt werden, ob 
diese Novelle »stilbildend für den Rest der Novellensammlung« ist und damit als »zen- 
trale Referenz für die Integration romantischer Novellen verwendet« (Weitin 2021, S. 22) 
werden kann. 

Um diese Frage zu beantworten, wird ein Simmelian Backbone-Netzwerk des Deut- 
schen Novellenschatzes (Modell 1) verwendet, bei dem die Knoten die Novellen sind und 
die verbindenden Kanten zwischen je zwei Novellen durch Farbgebung anzeigen, wie 
ähnlich sich diese beiden Novellen bezüglich des (stilometrischen) Stiltyps, gemessen 
mit einem Distanzmaß, sind (dunkle Verbindung = große, helle = wenig Ähnlichkeit). 
An den Knoten liegt zusätzlich der Wert für die Ähnlichkeit jedes einzelnen Textes zum 
Gesamtkorpus an (dunkler Knoten = hohe Korpusähnlichkeit, heller Knoten = diese No- 
velle hebt sich vom Mainstream der Sammlung ab). Das Netzwerk wird auf Basis der 
Distanzen mit Hilfe des Netzwerkanalysetools »Visone«” erstellt (vgl. ebd.). 

Die Ähnlichkeit wird mit Hilfe des Distanzmaßes Delta-mean, ein Abstandsmaß 
nach Burrows (vgl. Burrows 2002, S. 267ff.) ermittelt. Dabei werden aus den relativen 
Häufigkeiten der 500 häufigsten Wörter (MFW = Most Frequent Words) im Novellen- 
schatz der Abstand einer Novelle zum Durchschnitt des Korpus sowie die Abstände 
von je zwei Novellen zueinander berechnet. Mit einem sogen. Culling-Wert von 20 % 
wird sichergestellt, dass ein MFW-Wort nur dann verwendet wird, wenn das Wort in 
mindestens 80 % aller Novellen vorkommt. Bei den Worthäufigkeiten werden zunächst 
alle Wörter, auch Artikel, Pronomen, Konjunktionen, Präpositionen und die Formen von 
sein und haben genutzt. 

Zur Analyse der Novellen nach den genannten Verfahren wurde das System R zu- 
sammen mit der GUI RStudio (siehe Kap. 4.4) eingesetzt. R wird dabei um ein spezielles 
package namens »stylo« (Stylometric Multivariate Analyses) ergänzt, das von der R-Web- 


87 Vgl. URL www.visone.de [Zugriff: 09.08.2023] 
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seite CRAN zur Verfügung gestellt wird und die nötigen Funktionen für die genannte 
Aufgabenstellung umfasst. Die Webadressen dazu sind in der Fußnote zu finden. 

Es wird eine Webadresse? genannt, von der sämtliche im Projekt verwendeten Da- 
ten wie die Korpora, die R-Skripte, mit denen die Analysen durchgeführt wurden, die 
Konfigurationen usw. sowie die Auswertungen der Analysen (Netzwerke, Plots u.a.) her- 
untergeladen werden können, um die Ergebnisse bei Bedarf nachzuvollziehen (vgl. ebd., 
S. 10), was mit entsprechender Einarbeitung in die verwendeten Tools dem Verfasser die- 
ses Artikels auch gelang. 


Abb.10: Simmelian Backbone Netzwerk nach der Simmel-Transformation 


Goldammer (Wiedersehen 


S 
\ |Wild@fmuth 
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Chaffiisso 


Kaffer Kopisch_Känevalsfest Hartfann 
Zié / A Hôtei Sacher@Masoch _ 
J / Tieck_ e Ludwig 1 Scheffel 
Fraeuléin_Wolf Kopisch@raeumer H@ff Gotthelf_Notar 
Walt lofffann 


Quelle: Modifizierte Grafik nach Weitin 2021, S. 28. 


In diesem Artikel wird nicht naher auf die Interpretation der Ergebnisse eingegan- 
gen, das ist die Aufgabe von Literaturwissenschaftler:innen. Aus Sicht der Informatik er- 
staunlich werden ausschließlich aus stilometrischen Ähnlichkeiten, die mit bestimmten 
Distanzmaßen mit Hilfe der Worthäufigkeiten ermittelt werden, viele interessante Er- 
kenntnisse abgeleitet, wobei doch nur ein Parameter (Worthäufigkeit) genutzt wird. Un- 
ter anderem werden Autor:innengruppen und ihre Zugehörigkeit zur Romantik von der 


88 Vgl. die URLs https://www.r-project.org/, https://rstudioapp.com/, https://cran.r-project.org [Zu- 
griff 09.08.2023] 
89 URL: https://github.com/thomasweitin/Digitale_Literaturgeschichte [Zugriff: 01.11.2023] 
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Analyse erkannt. Dazu wird ein Filteralgorithmus nach Georg Simmel genutzt, mit dem 
Netzwerke so transformiert werden, dass Gruppen sichtbar werden (vgl. Weitin 2021, 
S. 27). Aus dem vollständigen Netzwerk werden dabei nur die Verbindungen herausge- 
filtert, die »zu lokalen Ähnlichkeitsgruppen gehören« (ebd.), wobei ein spezieller Algo- 
rithmus nur Verbindungen innerhalb von Dreiecken sucht. 


Wir sehen zum Beispiel in unserem Modell in Abb. 2.1 [hier Abb. 10], dass Reinbold 
(2 Uhr) in ihrer Gruppe Teil von insgesamt 5 Dreiecken ist, während Goethe (8 Uhr) zu 
keinem einzigen Dreieck gehört. Heyse (3 Uhr) hat auch nur zwei Dreiecke, während 
Kurz (10 Uhr) in seiner ausgesprochen dicht vernetzten Gruppe Teil von 19 Dreiecken 
ist, die der Betrachter gar nicht so leicht auseinanderhalten kann. (Weitin 2021, S. 29) 


Als Ergebnis der Analysen zum ersten Experiment wurde u.a. folgendes zusammenge- 
fasst: 


e Heyses Novelle ist der durchschnittlichste Text des Novellenschatzes, weil er den ge- 
ringsten Abstand (Delta mean) zum Durchschnitt des Korpus hat. 

e Allerdings hat die Novelle von Kurz, die dem Korpusdurchschnitt wesentlich weniger 
entspricht als die von Heyse, deutlich mehr >Follower< in der betreffenden lokalen 
Ähnlichkeitsgruppe. 

e Wider Erwarten ist die Novelle »Die neue Melusine< von Goethe nicht zentralim Netz- 
werk angeordnet und damit - so wird gefolgert - nicht stilbildend für die Novellen- 
sammlung (vgl. Weitin 2021, S. 24ff.). 


Weitin weist darauf hin, dass das ausgewählte Korpus eher nicht repräsentativ sei: »Es 
ist gerade nicht die Repräsentativität, sondern die Exemplarität dieser Sammlung, die 
hier aufschlussreich ist, wenn man sie parallel zur Lektüre nach quantitativen Methoden 
modelliert« (Weitin 2021, S. 36). 

Im zweiten Experiment »Autorennetzwerke im 18. Jahrhundert und in der Goethe- 
zeit« wurden Goethes Romane im Kontext ihrer Zeit, also in den Jahren 1770-1830, und 
ein Korpus mit Romanen aus dem 18. Jahrhundert untersucht (vgl. ebd., S. 40). Die Ana- 
lysen wurden wieder mit dem System R durchgeführt. Für die Korpora wurde auf vor- 
handene digitale Ressourcen wie Textgrid und Gutenberg.de zurückgegriffen, an einigen 
Stellen konnte der automatische Schrifterkennungs-Workflow im Darmstädter LitLab 
genutzt werden. Bei dem Experiment ging es u.a. um die Fragestellung, »wie sich die 
Texte aus ein und derselben Feder in einem Korpus mit vielen verschiedenen Autorin- 
nen und Autoren [bzgl. der Distanzmaße] zu einem Cluster zusammenfinden« (Weitin 
2021, S. 38). 

Die Ahnlichkeiten der 86 Texte aus einem Romankorpus zum 18. Jahrhundert wur- 
den wieder in einem Simmelian Backbone-Netzwerk wie im 1. Experiment (s. oben) 
dargestellt. Dabei traten überraschende Erkenntnisse zutage: Es haben sich visuell 
bestimmte Gruppen herausgebildet, z.B. eine Gruppe sämtlicher im Korpus vertretenen 
Autor:innen (»Fund«, »Autorinnen-Netzwerk«). Allerdings fiel auf, »dass die Unter- 
schiede im Wortgebrauch teilweise gar nicht inhaltlicher Natur waren, sondern durch 
unterschiedliche Schreibweisen und Modernisierungsstufen verursacht wurden« (Wei- 
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tin 2021, S. 45). Speziell die Schreibweisen mit/ohne th, ei/ey, Mut/Muth, Trane/Thrane 
u.a. sind hier zu nennen; dabei wurde versucht, die Effekte durch Änderung der Korpus- 
Zusammenstellung und Analyseparameter zu eliminieren. 

Im weiteren Text von Weitins Buch wurden folgende Themen behandelt, auf die hier 
nicht näher eingegangen wird: 


«  Stilometrie mit Parametermanipulation und zwei Distanzmaßen im Vergleich 

+  Textklassifikation durch maschinelles, überwachtes Lernen mit automatischer Klas- 
sifikation nach der Variable Gender 

e Quantitative Semantik mit Topic Modeling als Reading at Scale 

« Semantische Netzwerkmodelle 


Ein wichtiges Fazit von Weitin ist, dass das »black box-Verhalten der Analysetools kri- 
tisch sei, weil der Analyst »weniger gut in der Lage [sei] zu verstehen, wie Ergebnisse zu- 
stande kommen, sodass es auch schwieriger wird, Resultate mit kritischer Kompetenz 
zu interpretieren« (Weitin 2021, S. 39). Auch die wissenschaftliche Reproduzierbarkeit 
sei nicht immer gegeben. 


6 Neue Anforderungen an Softwareprogramme zur Textanalyse 


Neben den hier beschriebenen IT-Lösungen für die Analyse von Literaturtexten existiert 
eine Vielzahl weiterer Tools — vermehrt auch KI-basiert — oder solchen, die sich noch in 
der Entwicklung befinden. Es sind immer noch viele literatur-, geistes- und kulturwis- 
senschaftliche Fragestellungen offen, für die es keine oder nur unzureichende Lösungen 
gibt - wie das Thema Bedeutung und Interpretation von literarischen Texten, die Gen- 
derfrage bei Texten unbekannter Autor:innen, die genaue historische Einordnung und 
Datierung von literarischen Texten unbekannter Autor:innen oder das Ermitteln von re- 
levanten historischen Kontexten und ihrer Bedeutung für einen literarischen Text. Bei- 
spiele für Analyseanforderungen könnten das Erkennen von spezifischen Bedeutungen, 
rhetorischen Mitteln oder ästhetischen Strategien in Texten und das Erkennen von Wi- 
dersprüchen sein. Auch komplexe literatur- und kulturwissenschaftliche Fragestellun- 
gen, die eine Analyse von narratologischen, semantischen, ästhetischen und kulturellen 
Phänomenen, Symboliken und Artefakten in Texten nach sich ziehen, stellen eine Her- 
ausforderung für die Informatik dar. 

Neue Anforderungen an Softwaretools müssen spezifisch formuliert und in einem 
gewissen Maße formalisiert werden, damit sie klar und eindeutig sind. Um das zu 
gewährleisten, kann eine Anforderungsanalyse durchgeführt werden, bei der spezi- 
elle NLP-basierte Tools genutzt werden können (vgl. Femmer 2017). Auf Basis solcher 
spezifischen Anforderungen erstellen Informatiker:innen geeignete Softwaretools. Sie 
benötigen deswegen klare und eindeutige Anforderungen, da sie i.d.R. kein Fach- und 
Kontextwissen haben, d.h. keine (vertieften) Kenntnisse von literaturwissenschaftli- 
chen Frage- und Problemstellungen, Themen und Gegenständen. Auch zum Testen des 
fertigen Tools werden die Anforderungen benötigt, »gegen die praktisch getestet wird«, 
damit sie sich in der Praxis bewähren können. 
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7 Fazit 


Der Einsatz von IT-Programmen zur Analyse von literarischen Texten bietet zweifellos 
neue erkenntnis-, aber auch voraussetzungsreiche Möglichkeiten für die Literatur- 
wissenschaft. Dabei sollte für eine Analyse genau festgelegt werden, welche Fragen 
(Anforderungen) beantwortet werden sollen. Das anzuwenden, was die IT bereitstellt 
und ermöglicht, ohne die dazugehörige Fragestellung in Anforderungen zu spezi- 
fizieren, bringt zwar Ergebnisse, deren Nutzungsgrad aber begrenzt und teilweise 
fragwürdig erscheint. Ein wichtiger Aspekt der angewendeten Methodik ist auch, dass 
die erzielten Analyseergebnisse valide sind. Um das zu prüfen, sollte die Analyse trans- 
parent dokumentiert werden (inkl. Daten und Tools), damit die Ergebnisse reproduziert 
werden können. 

Eine Prüfung der eingesetzten Methoden auf Validität wird schwierig, wenn keine 
IST-Werte vorhanden sind wie in der Studie von Konle, Jannidis u.a.: Es war noch nicht 
literaturwissenschaftlich belegt, ob in dem verwendeten Korpus überhaupt Disruptio- 
nen existieren. Wenn in der Analyse festgestellt wird, dass es Disruptionen gibt, dann 
kann aber nicht sicher überprüft werden, ob das auch tatsächlich stimmt. 

Es gibt inzwischen wie beschrieben viele Tools, oft mit speziellen Erweiterungen 
(CATMA, System R mit stylo, Python, spaCy), aber die Nutzung kann für Informatik- 
Laien eine außerordentliche Herausforderung werden. Im Fall von KI-basierten Tools 
gibt es bereits trainierte Modelle/Netze (z.B. für Annotationen), die genutzt werden 
können. Ein Training für überwachtes Lernen durchzuführen, ist dagegen schwierig 
und aufwendig. Hier kann eine Zusammenarbeit mit Wissenschaftler:innen aus beiden 
Disziplinen überaus nützlich sein. 

Auf der Internetseite forText wird das Thema Stilometrie und seine Anwendung in 
der Literaturtextanalyse ausführlich erklärt und diskutiert. Es wird die Frage gestellt, 
ob »Stylo für DH-Einsteiger*innen geeignet« (ebd.) sei. In einer Checkliste wird bewer- 
tet, ob eine »Intuitive Bedienbarkeit« vorliegt (Ergebnis: »teilweise«) oder ob der Ein- 
stieg leicht ist (»nein«). Es wird darauf hingewiesen, dass »[glrundlegende Kenntnisse 
in der Programmiersprache R [...] zum Installieren und Starten des Tools vonnöten« sind 
(Horstmann 2019c). Es wird auch diskutiert, wie »etabliert Stylo für die digitale Stilome- 
trie in den Literaturwissenschaften sei« (ebd.). Obwohl Stylo »eines der etabliertesten 
Tools« ist, findet es »wie die meisten digitalen Textanalysetools [...] keine Erwähnung 
in Publikationen von Zeitschriften der traditionelleren Literaturwissenschaft« (Horst- 
mann 2019c, S. 2). Im Artikel von Laura Kraft im vorliegenden Band wird auch auf die 
notwendige Code-Kompetenz hingewiesen und darauf, »dass einschlägiges Wissen über 
die jeweilige digitale Methode sowie den ihr zugrunde liegenden Algorithmus mindes- 
tens hilfreich, aber auch nahezu unerlässlich ist.« 

Nachfolgend sollen hier noch einige Aussagen aus den weiter oben beschriebenen 
Projekten aufgeführt werden, die die Problematiken (z.B. der Validität) bei der kombi- 
nierten Anwendungvon qualitativen und quantitativen Methodiken beider Fachdiszipli- 
nen auf den Punkt bringen (vgl. Konle, Jannidis et al. 2021): 
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e Die euklidische Distanz bringt gute Ergebnisse, aber: »die konzeptionelle Schlicht- 
heit der Experimente kann eine künstliche Überbewertung der euklidischen Distanz 
erzeugen.« (Jannidis, F. u.a. 2021). 

e »Es ist problematisch, Aussagen zur Fachgeschichte aufgrund von nur einer Zeit- 
schrift zu treffen« (ebd.). Hier geht es um ausreichendes und repräsentatives Daten- 
material. 

e »Kiinftige Simulationsstudien [müssen] die Komplexität multifaktorieller Eigen- 
schaften, wie sie die Topic Analyse der DVjs deutlich gemacht hat, besser abbilden 
(ebd., S. 18). Bei Simulationen mit künstlichen Texten sollte auch auf eine »realisti- 
sche Verteilung« (ebd., S. 18) bei den Texten geachtet werden; eine Normalverteilung 
liegt i.d.R. nicht vor (vgl. Weitin 2021, S. 67). 

e Das Distanzmaß Kosinus-Delta ist sehr erfolgreich bei der stilometrischen Autor- 
schaftsattribution, d.h. der Zuordnung von Texten zu (deren unbekannten) Autor:in- 
nen: »Der unter dem Pseudonym Robert Galbraith erschienene Kriminalroman The 
Cuckoo's Calling konnte via Stilometrie Joanne K. Rowling zugeordnet werden; Row- 
ling hat sich daraufhin zu ihrer Autorschaft bekannt.« (Büttner u.a. 2017). 


Digitale Tools für die quantitative Textanalyse einzusetzen ist wie schon ausgeführt eine 
methodische Herausforderung für Literaturwissenschaftler:innen. Auch System R (mit 
RStudio) und stylo ist durch die GUI zwar relativ einfach in der Bedienbarkeit, ist aber 
dennoch ein komplexes Verfahren; daher sollte man sich zunächst intensiv einarbeiten 
und anhand von Beispiel-Anwendungen »üben«. 

Eine Alternative für das Thema Erwerb von benötigten Fähigkeiten aus beiden Diszi- 
plinen wäre, Studiengänge an den Hochschulen einzurichten, die eine kombinierte Aus- 
bildung zur DH, also zu Informatik und Geisteswissenschaften anbieten. Mit der reinen 
Addition klassischer Fächer aus beiden Disziplinen ist es in der Regel nicht getan, viel- 
mehr sollten sie miteinander verzahnt werden. Das kann u.a. so aussehen, dass der An- 
wendungsteil (also die praktischen Übungen) der Informatikfächer aus dem Bereich der 
Literaturtextanalyse gewählt wird. System R mit RStudio und stylo, Python und KI-Pro- 
gramme mit allen Lernarten sollten aufjeden Fall dazugehören, ein Mindestanteil Sta- 
tistik wäre eine sinnvolle Ergänzung. 

Solche kombinierten bzw. interdisziplinären Studiengänge (Stichwort »Bindestrich- 
Informatik«) gibt es schon lange. Beispiele sind Wirtschaftsinformatik, Ingenieursinfor- 
matik, Rechtsinformatik, Elektro- und Informationstechnik, medizinische Informatik, 
Bio-Informatik, Data Science und Business Administration mit Informatik. Aktuell gibt 
es »über 1300 Studiengänge im Fachbereich Informatik, die an mehr als 260 Hochschulen 
in Deutschland angeboten werden. Dazu kommen noch einmal knapp 700 interdiszipli- 
näre Informatikstudiengänge.«”° 


90  https://www.get-in-it.de/magazin/studium/trendstudium-bindestrich-informatik I[Zugriff: 
08.05.2023]. Zu den geeigneten Inhalten eines DH-Studiengangs siehe den betr. Artikel auf dem 
Download Server. 
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Abkürzungsverzeichnis 


API Application Programming Interface 
csv Character Separated Value 

DVj Deutsche Vierteljahrszeitschrift für Literaturwissenschaft und Geistesgeschichte 
GNU General Public License 

GUI Graphical User Interface 

i.d.R. in der Regel 

KI _ Künstliche Intelligenz 

KWIC Keywords in Context 

LDA Latent Dirichlet Allocation 

LIWC Linguistic Inquiry and Word Count 
MFW Most Frequent Words 

ML Machine Learning 

NER Named Entity Recognition 

NLP Natural Language Processing 

NN Neuronale Netze 

OCR Optical Character Recognition 
OOP Objektorientierte Programmierung 
PC Personal Computer 

SSD Solid State Drive 

TEI Text Encoding Initiative 

txt Text(-Format) 

UML Unified Modelling Language 

URL Uniform Resource Locator 

WTE Worttrennelement 

WWW World Wide Web 

XML Extensible Markup Language 
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Anhang 


Pseudocode und Programm zur Primzahlerkennung 


Beispiel: Programm zur Prüfung einer Zahl n auf Primzahl mit Probedivisionsmethode. 
Mit dieser Methode wird die zu prüfende Zahl n sukzessive durch alle ganzen Zahlen 
von 2 bis n-1 (bzw. bis zur Wurzel aus n reicht auch) dividiert. Falls dabei ein Rest = 0 
vorkommt, dann ist n keine Primzahl, sonst schon. 

Hier der Pseudocode und je ein Java- und ein Python-Programm inkl. Funktion dazu: 


Eingabe: 
Eine ganze Zahl n (ab 2 aufwärts; bei n = 0 Ende) 
Verarbeitung: 
Setze Boolsche Variable istPrimzahl auf wahr (also zunächst Annahme: n ist eine Primzahl) 
Für eine Zahl i, die von 2 bis n (bzw. bis Wurzel aus n) aufsteigend in ler Schritten läuft, prüfe 
Wenn der Rest der Division von n durch i größer 0 ist 
dann ist n keine Primzahl, also setze istPrimzahl auf falsch # weil n durch dieses i teilbar 
Ausgabe: 
Wenn istPrimzahl = wahr 
Anzeige "Die Zahl ist eine Primzahl" 
Sonst 
Anzeige "Die Zahl ist keine Primzahl" 
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Das vereinfachte Java-Programm für die Probedivision kann wie folgt aussehen: 


public class Primzahl { 
public static void main(String[] args) { 

long n= 7; // Platzhalter fiir die Benutzereingabe 

boolean istPrimzahl = true; // Initialisierung 

for (int i = 2; i*i < n; Hi) // Schleife 

if(n %i==0) { 

istPrimzahl = false; 
break; 


i 
f 


if (istPrimzahl == true) 
System.out.println("\n" + n +" ist Primzahl"); // Platzhalter für die Ausgabe 


// break ist eigentlich kein guter Programmierstil 


else 
System.out.println("\n" + n +" ist keine Primzahl"); 
[i 
J 


Alternative kann eine Funktion pruefe() genutzt werden: 
public static boolean pruefe(long n) { 
boolean istPrimzahl = true; 
for (int i = 2; i*i < n; ++i) 
if (n % i == 0) 
f{istPrimzahl = false; break; } 
return istPrimzahl; // Rückgabewert der Funktion 


[i 
s 


Dann ruft das Hauptprogramm diese Funkton wie folgt auf: 
istPrimzahl = pruefe(n); // die Funktion pruefe() liefert true oder false zurück 


Vereinfachtes Python-Programm mit Funktion: 


import math 
def istPrim(zahl): # Funktion 
istPrimzahl = True 
for i in range(2, int(math.sqrt(n))): 
ifn % i == 0: 
istPrimzahl = False 
break 
return(istPrimzahl) 


# Hauptprogramm 
while True: # Dauerschleife bis Eingabe 0 


n = int(input("Zahl (0 = Ende): ")) 


break 
istPrimzahl = istPrim(n) # Aufruf der Funktion istPrim() 


ifn > 1 and istPrimzahl: 
print("\n" + str(n) + " ist Primzahl") 


else: 
print("\n" + str(n) + " ist keine Primzahl") 


245 


Gebiete und Publikationsformen in der Informatik 


Jennifer Krieger (Informatik) 


Dieser Beitrag gibt einen Überblick über die Informatik und ihrer Gebiete und erläutert 
wichtige Publikationsformate dieser Wissenschaft. 


Gebiete der Informatik 


Anfangs soll die Frage: »Worum geht es überhaupt in der Informatik als Wissenschaft?« 
geklärt werden. Eine vielzitierte Beschreibung gibt Böving (2006): 


Informatik (computer science): Wissenschaft von der systematischen Darstellung, 
Speicherung, Verarbeitung und Übertragung von Information[en], besonders der 
automatischen Verarbeitung mithilfe von Digitalrechnern (Computer). [...] 


Heute stellt sich die Informatik überwiegend als eine Ingenieurwissenschaft dar, die 
(anstelle der Grundelemente »Materie« und »Energie«) den Rohstoff »Information« 
modelliert, aufbereitet, speichert, verarbeitet und einsetzt. 


Im Folgenden werden einige Fachgebiete der Informatik und ihre Themenkomplexe zu- 
sammengefasst. Die Abgrenzung der Fachgebiete ist dabei nicht als scharf anzusehen, 
es gibt und gab stets Einflüsse zwischen den Gebieten und Disziplinen. Auf die histori- 
sche Entwicklung der Informatik als Wissenschaft und der Gebiete der Informatik soll 
hier jedoch nicht eingegangen werden, dazu seien Werke wie Bauer (2007) und Hellige 
(2003) wärmstens empfohlen. 

Während fast alle Gebiete der modernen Informatik mit Software (Computer- 
Programmen) und Hardware (kleine und große Computer, Chips etc.) arbeiten, sind 
die Gebiete, die sich mit dem Design ebendieser beschäftigen, leichter abgrenzbar. 
Die Hardware-nahen Gebiete werden oft in der Gruppe der »Technischen Informa- 
tik« abgegrenzt. Hier werden Rechnerbauteile und -architekturen weiterentwickelt, 
und anwendungsspezifische Rechner wie eingebettete Systeme (man denke hier an 
Steuerungseinheiten in Autos, Waschmaschinen, ...) designt. 
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Ressourcenbeschränkungen (wenig Platz auf der Platine oder wenig Speicherplatz, 
wenig akzeptable Rechenzeit) sind in der technischen Informatik ebenso ein Thema 
wie in der Algorithmik. Der zentrale Begriff »Algorithmus« meint dabei eine endlose 
Folge von Berechnungsvorschriften. Außerhalb der Informatik begegnen uns Algo- 
rithmen meist implementiert (umgesetzt) als Computer-Programm. Algorithmische 
Gebiete beschäftigen sich beispielsweise mit effizienten Algorithmen, randomisierten 
Algorithmen, Algorithmen auf Texten, großen Datensätzen (Big Data), Bildern, Videos, 
Audiodaten, Datenbanken oder Graphen. 

Mit dem Design von Software und Programmen im weiteren Sinne beschäftigen sich 
Fachgebiete wie »Software Engineering«, Design von Programmiersprachen und Com- 
pilerbau. Compiler übersetzen Programmcode in Maschinenanweisungen und bilden 
damit eine wichtige Schnittstelle zwischen Programmierendem und Computer. 

Die Nähe zur Mathematik lässt sich in theoretischen Gebieten wie »Automatisiertes 
Beweisen«, Verifikation von Programmen, Berechenbarkeits- und Komplexitätstheorie 
(Ist es möglich, eine Lösung für unser Problem zu berechnen und wenn ja, wie schnell?) 
und Logik erkennen. Auch die Kryptologie und Kryptographie sind bekannte Schnittge- 
biete zwischen Mathematik und Informatik. 

Mustererkennung (Pattern Recognition), Maschinelles Lernen, Künstliche Intelligenz 
(KD), Aritificial Intelligence (AI) sowie Deep Learning, die zurzeit wohl bekanntesten Be- 
griffe und Fachgebiete der Informatik, haben ebenfalls ihre Ursprünge in der Mathema- 
tik. 

Diese Liste solleinen Überblick geben, ohne dabei Anspruch auf Vollständigkeit oder 
interne Disjunktheit zu erheben. Natürlich existiert die Informatik nicht abgeschnitten 
von anderen Wissenschaften, es gibt zahlreiche Schnittgebiete wie die Medizininforma- 
tik, Bioinformatik, Automatisierungstechnik und viele weitere; und selbst die Definiti- 
on(en) und Abgrenzung(en) einzelner Fachgebiete umfassen ganze Publikationen. 


Publikationsformate der Informatik 


In der Informatik gibt es verschiedene Publikationsformate, die je nach Zielsetzung, 
Fachgebiet, Umfang und Ergebnis der Forschung eingesetzt werden. Die gängigsten 
sind Konferenz- sowie Workshopbeiträge und Journalartikel. Neben diesen Publi- 
kationen wird das Medium des Technischen Berichts (technical reports) genutzt, um 
Forschungsergebnisse von zumeist Arbeitsgruppen zu publizieren. Monografische 
Werke finden sich meistens in der Form von Abschlussarbeiten, Dissertationen wie 
Habilitationen, oder Lehrbüchern. 

Der akademische Werdegang einer Person kann stark beeinflusst werden von der 
wahrgenommenen Forschungsleistung oder Publikationsleistung. Diese wird an Faktoren 
wie der Anzahl und Rezeption der Publikationen, Teilnahme an Forschungsprojekten 
und wissenschaftlichen Auszeichnungen beurteilt und ist meist ein Muss-Kriterium bei 
der Auswahl von (Jung-)Forschenden für Stellen an Hochschulen. Bei den Publikationen 
spielt die Zahl der Zitationen und die Reputation der Konferenz oder des Journals, wel- 
ches die Veröffentlichung vornimmt, eine wichtige Rolle. In den folgenden Abschnitten 
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findet sich eine Erläuterung und Kontextualisierung der Publikationsformen. Außerdem 
wird der allgemeine Aufbau von Beiträgen umrissen. 


Konferenzbeiträge 


Konferenzbeiträge (auch im deutschen Sprachraum zunehmend Paper genannt) sind 
wohl die am häufigsten genutzte Form der Publikation in der Informatik. Konferenzen 
finden jährlich oder zweijährig an wechselnden Orten statt. Sie geben eine Möglich- 
keit, aktuelle Forschungsergebnisse zu präsentieren. Konferenzen bieten neben der 
Veröffentlichung der Beiträge im Konferenzband (Proceedings) und dem Austausch 
mit anderen Wissenschaftler:innen vor Ort einen ausführlichen Peer-Review-Prozess. 
Während der Konferenz selbst werden die angenommenen Beiträge in Postersessions 
oder Vortragsform (gängig: 20-30 Minuten Länge) vorgestellt. Die genaue Struktur und 
Länge ist abhängig vom Forschungsgebiet und der Konferenz bei der der Beitrag ein- 
gereicht wird. Weiterführende Grafiken wie auch Programmcode und Parametersätze 
(zum Beispiel Parameter/Einstellungen der Algorithmen) finden sich üblicherweise in 
den Anhängen. 


Workshopbeiträge 


Workshops sind ähnlich wie Konferenzen, jedoch werden sie in kleineren, thematisch 
fokussierteren Gruppen präsentiert. Workshops können sowohl im Rahmen von Kon- 
ferenzen als auch als eigenständige Veranstaltungen stattfinden. Typischerweise dau- 
ern sie einen halben oder ganzen Tag und beinhalten eine Reihe von Vorträgen, Diskus- 
sionen und interaktiven Übungen. Teilnehmen können Studierende, Forschende oder 
andere Fachleute sein, die an diesem spezifischen Thema interessiert sind und ihr Wis- 
sen und ihre Fähigkeiten vertiefen möchten. Workshopbeiträge können ebenso wie Kon- 
ferenzbeiträge in Sammelbänden, herausgegeben vom Programmkommitee des Work- 
shops, veröffentlicht werden. Workshopbeiträge sind insbesondere bei Jungforschenden 
als auch in kleineren Fachcommunities beliebt. 


Journalartikel 


Akademische Fachzeitschriften, die sich auf Veröffentlichungen von wissenschaftlichen 
Artikeln und Forschungsarbeiten konzentrieren, werden in der Informatik Journals ge- 
nannt. In Abgrenzung zu Konferenzpapieren sind Journalartikel detaillierter und prä- 
sentieren eine umfassendere und tiefgreifendere Analyse, Erläuterungen zu Beweisen 
etc. Beispielhaft sind in Tabelle 1 Formatvorgaben von je drei renommierten Konferen- 
zen und Journals angegeben. 

Der Review-Prozess von Journals ist im Allgemeinen ausführlicher und zeitintensi- 
ver, weshalb zwischen Einreichung und Veröffentlichung des Artikels Wochen bis Mo- 
nate liegen. Daher werden Ergebnisse gern zuerst in abgekürzter Form auf Konferenzen 
vorgestellt und für die spätere wissenschaftliche Verwendung ausführlicher in Journal- 
artikeln veröffentlicht. 
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Tabelle 1: Formale Anforderungen ausgewählter Konferenzen und Journals 


Name Publikationsform Seitenbeschränkung Weitere Vorgaben 
Association for Computing Machinery Konferenz 12 Seiten 10pt doppel- 
Special Interest Group on Data spaltig 
Communication 

(ACM SIGCOMM) 

International Conference on Machine Konferenz 8 Seiten 10pt doppel- 
Learning (ICML) spaltig 
Conference on Neural Information Konferenz 8 Seiten 10pt einspaltig 
Processing Systems 

(NeurlPS) 

IEEE Transactions on Computers (TC) Journal 14 Seiten doppelspaltig 
Journal of Artificial Intelligence (AIJ) Journal keine* 

Journal of Computer Science Journal keine”, doppelspaltig 
and Technology (JCST) 20 Seiten 


sind üblich 


Quelle: eigene Tabelle 


Monografische Werke 


Bei monografischen Werken geben Anlass und Fachrichtung das Format und den Auf- 
bau vor. Es finden sich dabei deutliche Unterschiede zwischen thematisch streng abge- 
grenzten Fachbüchern, Überblick verschaffenden Fachbüchern und Habilitationsschrif- 
ten. Abschlussarbeiten sind abhängig von den Vorgaben der Universität, des Studien- 
gangs und teils des Lehrstuhls. Allerdings wird von den Studierenden im Allgemeinen 
erwartet, die grundsätzliche Struktur des wissenschaftlichen Schreibens für Konferenz- 
beiträge und Journalartikel einzuüben. Dadurch sind Abschlussarbeiten zumeist ähnlich 
strukturiert, aber durch ausführliche Grundlagenerläuterungen länger als Konferenz- 
beiträge. 


Technische Berichte 


Nach ISO 5966 »Documentation — Presentation of scientific and technical reports« be- 
schreibt ein technischer Bericht Forschungsprozesse oder -ergebnisse oder den Stand 
der Technik zu einem wissenschaftlichen oder technischen Problem. Sie können von Ar- 
beitsgruppen oder Verlagen herausgegeben werden und dienen der Dokumentation und 
Information anderer Forschender. 


Aufbau einer Forschungsarbeit in der Informatik 


Der Titel gibt das Thema der Arbeit an, gern wird die zentrale Forschungsfrage oder 
das zentrale Ergebnis der Forschung verarbeitet. Es folgt die Zusammenfassung (der 


Jennifer Krieger: Gebiete und Publikationsformen in der Informatik 


Abstract): Eine kurze Darstellung der Forschungsfragen, die von der Arbeit beantwortet 
werden, und das zentrale Resultat der Forschungsbemühungen. In der Einleitung wird 
der Kontext der Forschungsarbeit präsentiert, sowie Forschungsfragen und Hypothesen 
skizziert. Die detailliertere Einordnung in den Kontext der Forschung und Abgrenzung 
zur bestehenden Forschung auf dem Gebiet findet im Abschnitt »Verwandte Arbeiten« 
statt. Die zugrundeliegenden Fragen, die dieser Teil beantworten sollte, sind: »Welche 
Forschungslücken werden geschlossen?«, »Wie sind die Ergebnisse verglichen mit be- 
reits bekannten Arbeiten einzuordnen?« und »Wie und in wie weit sind die Ergebnisse 
der vorliegenden Forschungsarbeit mit den verwandten Arbeiten vergleichbar?«. 

Nach der Einordnung der Arbeit folgt die Erläuterung der Methodik: Hier wird be- 
schrieben, wie Datensätze ausgewählt wurden, welche Algorithmen zum Einsatz kamen 
und welche Metriken für die Bewertung der Daten oder Ergebnisse verwendet wurden. 
Im Ergebnis-Abschnitt werden die erhobenen Daten präsentiert, oft einschließlich sta- 
tistischer Analysen und Visualisierungen. 

Ein zentrales Element der Forschungsarbeit stellt weiterhin die Diskussion dar: Die 
zuvor dargestellten Daten werden interpretiert, und damit die anfangs gestellten For- 
schungsfragen beantwortet. Es wird erwartet, dass die Forschungsarbeit aufzeigt, wel- 
che Beiträge (Contributions) zur Forschung geleistet wurden, und dass kritisch evaluiert 
wird, welche Einschränkungen der Aussagekraft durch die Methodik, die Auswahl der 
Daten und Metriken etc. entstanden sind. 

Die Arbeit endet mit einer Zusammenfassung der wichtigsten Ergebnisse und Bei- 
träge. Im Schlussteil oder gemeinsam mit vorherigen Teilen werden zudem Vorschläge 
für Folgefragen, weiterführende Forschung und Anwendungen der präsentierten Ergeb- 
nisse aufgezeichnet. Die Quellen werden zumeist im APA- oder IEEE-Stil angegeben. 
Der Anhang im Downloadbereich auf GitHub wird genutzt, um weiterführende Dia- 
gramme, Algorithmen und Programmtexte sowie weitere zur Reproduktion der Ergeb- 
nisse verwendbare Materialien mitzuliefern. 
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